A HISTÓRIA DA ESTATÍSTICA Ciro Melo do Valle Instituto de

Propaganda
CADERNOS DO IME – Série Estatística
Universidade do Estado do Rio de Janeiro- UERJ
Rio de Janeiro – RJ - Brasil
ISSN 1413-9022 / v. xx, p. xx - xx, 2011
A HISTÓRIA DA ESTATÍSTICA
Ciro Melo do Valle
Instituto de Matemática e Estatística da Universidade de São Paulo
[email protected]
Resumo
O objetivo desse artigo é resumir a história da ciência estatística. Ele será
divididonessascincopartes, que são as mais importantes: os primórdios, a Escola
Biométrica, a fase da experimentação, o levantamento de dados através de técnicas
de amostragem e a era atual. Não escreverei somente do ponto de vista teórico, mas
evidenciareiainfluência recíproca de diferentes personagens que tiveram grande
importância nodecorrerdessa história. Afinal, foi essa troca de informações entre
pensadores da área que fez com que os métodos e técnicas usados atualmente fossem
desenvolvidos. Explicarei o porquê de a estatística ser um conjunto de métodos que
possibilitam o tratamento de dados numéricos influenciados por uma multiplicidade
de fatores causais a fim de chegar a uma conclusão.A descrição dessa história será
importante para que os leitorem quebrem o conceito restrito que a maioria das
pessoas tem sobre o que éa Estatística.
Palavras-chave: história; estatística; amostragem; experimentação.
1. Primórdios
Dadosforam levantados por Confúncio, na China, mais de 2000 anos antes da
era cristã. Alémdesse caso, há muitos outros relatos de pessoas que levantaram
dadosantes da emergência da estatística,que ocorreu no século XVI, na Itália.
Foi o movimento renascentista que, por volta de 1560, incentivou a coleta de
dados realizada pelo governo, similar aos censos realizados atualmente. Essa coleta
era feita a fim de obter maior sucesso na administração pública dascidadesitalianas,
através de registros de batismos,casamentoseóbitos.
Os alemães continuaram os estudosdo que já havia sido iniciado pelos
italianos, criandoformasdesistematização e novastécnicas descritivas.Inclusive, o
criador do termo "estatística", amplamente usado atualmente, foi o alemão Gottfried
Achenwall (1719 - 1772), professor da Universidade de Gottingen.
A primeira tentativa de chegar a conclusões através dos dados numéricos
coletados ocorreu na Inglaterra, somente no século XVII. Foi o londrino John Graunt
(1620 - 1674) quem a fez. Ele chegou a diversas conclusões através dos dados
coletados na paróquia de Londres, comoque haviammaismeninos nascendo
doquemeninasequeosíndices de mortalidade eram maiores nas zonas urbanas do que
nas rurais. Porém, foi seu sucessor William Petty (1623 -1683) quem criou o termo
Aritmética Política, quesignificavaraciocinar por meio de dados relacionados ao
governo.
A primeira tábua de sobrevivência, que utilizava registros vitais de uma cidade
alemã, foi feita no ano de 1693 pelo astrônomo inglês Edmond Halley (1656 1742).Estas são amplamenteutilizadasno ramo das ciências atuariais atualmente para
cálculodeseguros de vida. Por isso, ele é considerado o criador do cálculo atuarial.
O cálculo de probabilidades foi criado correspondentemente por dois
matemáticos do século XVII: Blaise Pascal (1623 - 1662) e Pierre de Fermat (1601 1665). Eles tinham a intenção de solucionar problemas relacionados à jogos de azar,
que eram muitíssimo populares entre os membros daaristocracia francesa na época.
Porém, eles só foram capazesdeconsiderar casos em que todas as probabilidades são
equiprováveis, como um jogo de dados, por exemplo.
Foi Jacob Bernoulli (1654 - 1705), matemático suíço, a primeira pessoa capaz
de considerar os casos não equiprováveis. A novidade de seu pensamento consistia na
ideia de que quanto maior o número de observações, maior tornava-se a precisão da
proporção observada até que chegasse um ponto em que esse número fosse tão grande
a ponto de que fosse possível considerar a probabilidade observada como verdadeira.
2. A Escola Biométrica
A Escola Biométrica surgiu na Inglaterra entre o final do século XIX e o
começo do século XX. Esse foi um período de grande avanço nas técnicas estatísticas,
especialmente para as técnicas de correlação e ajustamento de
curvas.KarlPearson(1857- 1936) foi o principal representante dessa fase e, por isso,
éconsiderado o fundador da Estatística.
Pearson estudou matemática na Universidade de Cambridge e exerceu
algumas outras atividades antes de se interessar pela estatística. Em 1892, publicou
um artigo dizendo que toda variação se dava numa escala contínua, até mesmo as
descontínuas, pois estas seriam na verdade contínuas com interrupções.Essa
afirmação gerou bastante repercussão por ser completamente inovadora e infuenciou
o estudo da Psicometria, quebrando o conceito de que somente as variáveis contínuas
eram mensuráveis, o que fez com que a Psicologia deixasse de ser uma ciência
somente teórica, possibilitando a realização de experimentos psicológicos.
A princípio, ele se envolveu no estudo da estatística voltada para a genética,
mas ao longo do tempopassou a estudar a regressão e a criar fórmulas para a medição
de correlações múltiplas. Tinha alguns colaboradores, mas, dentre esses, o que mais
se destacou foiGeorge Udny Yule, que criou um coeficiente que mede o grau da
associação entre duas variáveis em tabelas de contingência 2 x 2.Alémdisso, Yule
também inventouocorrelograma e as séries auto-regressivas.
Pearson não se interessou somente pelo estudo da correlação, mas também
pelas distribuições de frequência que não seguiam o padrão normal. Dessa forma,
gerou um sistema genérico de curvas de frequência, conhecido hoje como Sistema de
Curvas de Pearson. Foi através do aprofundamento dessa área que ele criou o teste
Qui-quadrado, mesmo tendo cometido erros no uso dos graus de liberdade e vindo a
ser corrigido somente no futuro por R. A. Fisher.
Conforme fazia novas descobertas, Pearson ficava ainda mais interessado em
aprofundar-se nos estudos.Por isso, arrecadou fundos para exercer atividades no
Laboratório de Biometria, no ano de 1903.As doações se tornaram mais frequentes e
foram suficientes para que ele fundasse o Laboratório de Eugenia, no ano de 1907.
Em 1911, juntou esses dois laboratórios e os determinou comoo Departamento de
Estatística Aplicada.
De 1894 a 1930, o único lugaremqueerapossível estudar estatística avançada
era o University College, em Londres. Nessa época, Pearson foi procurado por
William Sealy Gosset (1876 - 1937), mais conhecido como Student, para fornecê-lo
ajuda na análise de amotras de pequeno tamanho. Gosset estagiou durante um ano sob
a orientação de Pearson e descobriu que qualquer experimento pode ser considerado
um indivíduo de uma população de experimentos realizados sob as mesmas
condições.
Ao observar que o método usado para estimação de uma amostra através da
aproximação pela distribuição normal através da tábua de integrais de probabilidade
era falho quando o número total de observações era pequeno, ele propôs um novo
estimador para esse caso, gerando uma nova distribuição. Essa distribuição ainda é
conhecida como distribuição t de Student, denominada dessa forma pelo próprio
Gosset.
Pearson acabou por desenvolver algumas tabelas estatísticas para diferentes
distribuições a fim de que as pessoas aplicassem os novos métodossem terem que usar
máquinas de calcular. Além disso, manteve-se ocupado com as funções que exercia
na edição da revista Biometrika. Para incentivar o estudo da estatística por novos
pesquisadores, fundou uma outra revista, que visava somente a publicação de artigos
relacionados a essa ciência: a The Annals of Eugenics.
Com a aposentadoria de Pearson, o departamento se dividiu em dois: o de
Eugenia e o de Estatística. Fisher passou a ser professor catedrático Galton de
Eugenia e editor da The Annals of Eugenics. No entanto, no ano de 1943, Fisher saiu
para trabalhar como professor da Universidade de Cambridge e seu substituto, L. S.
Penrose, dedicou-se somente a escrever artigos relacionados à genética, alterando o
nome da revista para Annals of Human Genetics, o qual é mantido até hoje.
O departamento de estatística ficou por conta do
filhodePearsoneelecontinuou como editor da Biometrika até a sua morte, que
ocorreu três anos depois.
3. A Fase da Experimentação
Ao contrário das pesquisas realizadas pela Escola Biométrica, as pesquisas
estatísticas de caráter experimental exigiam adaptação à pequenas amostras. Como
vimos na seção anterior, Gosset dedicou-se ao estudo de amostras desse tipo. No
entanto, foi R. A. Fisher quem, posteriormente, aprofundou-se ainda mais nesse
assunto, tornando-se a principal figura da Fase da Experimentação.
Ronald Aylmer Fisher (1890 - 1962) terminou seus estudos secundários em
Harrow, uma das escolas mais famosas da Inglaterra, e ingressou no curso de
Matemática na Universidade de Cambridge no ano de 1909.Formou-se no ano de
1912, mas passou mais um ano dedicando-se ao estudo da Mecânica Estatística e da
Física Quântica.
Foi ao longo de sua carreira profissional que fez grandes descobertas no ramo
da estatística, sendo estas principalmente relacionadas ao delineamento de
experimentos e à genética. É certo que Fisher foi o maior estatístico de sua época, mas
há muitos que dizem que ele foi também o maior de todos os tempos.
Sua primeira descoberta foi relatada no artigo (Fisher, 1912), no qual ele
enunciou o conceito da máxima verossimilança no ajustamento de curvas de
frequência.Pouco tempo depois, deu continuidade ao trabalho de Student e estudou a
distribuição t e o coeficiente de correlação em pequenas amostras.
Sempre disposto a aprender coisas novas, prosseguiu estudando as
distribuições amostrais, criando diversas distribuições exatas e desenvolvendo alguns
testes de significância. Entre essas, está a sua própria distribuição z, usada
preferencialmente pela representação hipergeométrica.Além disso, conseguiu achar a
relação entre o seu teste (z) e o teste qui-quadrado.
Ironicamente, só teve um artigo publicado na revista Biometrika, que falava
sobre a distribuição de razão de variância,mais conhecidacomoF.A maioria de seus
artigos foram disponibilizadosna revista internacional, de grande importância na
época,Metron.
Ao escrever sobre Fisher, o autor Yates & Mather afirmou que, sem dúvidas, a
sua maior contribuição para a estatística foi o desenvolvimento do método da máxima
verossimilhança. O conceito básico dessa metodologia baseia-sena ideia de que nem
sempre todos os parâmetros têm estimadoressuficientes,masquando têm, o estimador
da máxima verossimilhança é um estimador suficiente. Nas palavras de Fisher, "um
estimador suficiente é aquele que contém toda a informação contida na amostra,
sendo desnecessário considerar qualquer outro estimador".
Outra grande contribuição de Fisher foi o conceito de probabilidade fiducial.
Ele baseou-se parcialmente no teorema de Bayes a fim de solucionar o problema
principal da inferência estatística: como fazer afirmativas de probabilidade sobre um
parâmetro desconhecido sem conhecer as probabilidades a priori. Isso só era possível
anteriormente quando as probabilidades eram conhecidas.
4. Desenvolvimento dos Levantamentos por Amostragem
Trataremos agora de coletas de informações sem controle das fontes de
variação por parte do pesquisador. Apesar de existirem de certa forma desdeo
iníciodosestudosdaestatística, só passaram a ser desenvolvidos métodos depois de
algumas contribuições teóricas feitas por alguns estudiosos. A diferença básica dessa
proposta é que, ao invés de basear-se em populações infinitas e abstratas, os
levantamentos possibilitaram a análise de populações finitas e reais.
Já que possui um caráter mais aprofundado e complicado, o estudo de
populações finitas só passou a ser feito mais recentemente. Como podem imaginar,
essas novas técnicas foram muito esperadas, pela maior facilidade em lidar com dados
concretos, e, dessa forma, surgiram muitos diferentes planos de amostragem. Estes
são amplamente usados atualmente em pesquisas dos mais variados tipos.
A primeira pessoa a advogar o uso da amostragem em pesquisas foi Kiaer,
utilizando seu método de representatividade. Sua intenção era coletar uma amostra
que representasse uma "miniatura" da população em questão. Dessa forma,
desenvolveu um método que considerava fatores geográficos, sociais e econômicos a
fim de selecionar a amostra boa quanto à sua representatividade da população.
Foi, principalmente, graças à Arthur Lyon Bowley (1869 - 1957), professor de
Estatística da London School of Economics, que a teoria e as aplicações práticas do
método representativo foram introduzidas. Ele considerou duas possíveis formas
derealizar uma amostra representativa eficiente: a seleção intencional ou ao acaso. Na
amostra intencional, utilizam-se técnicas para selecionar os grupos de forma que eles
possuam as mesmas características que a população e, na amostra ao acaso, como o
próprio nome sugere, a seleção era feita de forma aleatória. Há também a
possibilidade de colher uma amostra mesclando esses dois tipos de seleção.
Após a descoberta de que esse método de amostragem era falho diante de
certas circunstâncias, uma nova ideia foi proposta por Neyman.Ele provou a maior
eficiência da amostragem aleatória estratificada em relação a seleção intencional.
Além disso, apresentou novidades no estudo da inferência em populações finitas na
base da casualização. E, pela primeira vez, tratou a estimação intervalar através de
intervalos de confiança, os quais são muitoconhecidos pelos estatísticos atuais.
Dessa forma, passaram a selecionar amostras por apreciação subjetiva ou
simplesmente por conveniência. Um método muito utilizado foi o da amostragem por
quotas, onde cada quota (ou estrato) tem um número tal que sua proporção na amostra
é a mesma na população, ou muito próxima. Alguns estudiosos foram contra esse tipo
de coleta, pois diziam que ela não possibilitava o cálculo do erro da amostragem.
5. A Era Atual
Atualmente, a estatística vem recebendo uma influência gradativa da ciência
matemática. Na década de 40, a estatística poderia ser compreendida por alguém que
não tinha um conhecimento muito aprofundado de matemática, mas agora é
necessário ter um grande conhecimento dessa área para compreender os artigos
relacionados à estatística que são publicados. No entanto, é importante ressaltar que
são ciências distintas. A estatística trata de coleta, análise e interpretação de dados,
enquanto o estudo da matemática exige capacidade de demonstração de teoremas e
rigor teórico.
O período de 1925 a 1960 é considerado como a época áurea do pensamento
estatístico, pois obteve trabalhos realizados por Fisher, Neyman, Egon Pearson (filho
de Pearson) e Wald. Foram principalmente esses pesquisadores que desenvolveram as
técnicas de levantamento de dados por amostragem e tiveram novas ideias sobre
análise multidimensional e séries temporais.
David Roxbee Cox (1924 - ) é um dos maiores estatísticos da era atual. Ele já
publicou mais de 200 artigos e mais de 15 livros e é formado
emMatemáticapelaUniversidade de Cambridge, apesar de ter feito o seu doutorado na
Universidade de Leeds. Em um de seus artigos, afirmou que a introdução às máquinas
de calcular gerou a primeira revolução no estudo da ciênciaestatística, fazendo com
que desenvolvessem novos métodos e implementassem outros já existentes.
O que já havia se tornado muito mais fácil na década de 40, com a introdução
das calculadoras, passou a ser ainda mais fácil com a possibilidade de utilização de
computadores eletrônicos. Atualmente, estão quase extintos os estatísticos que não
dispõem de uma máquina para auxílio nos estudos e a existência de diversos
programas, como o Statistical Analysis System (ou simplesmente SAS), facilitou
ainda mais a análise de dados experimentais.
Referências
MEMÓRIA, J. M. P.; Breve História da Estatística. Embrapa Informação Tecnológica, Brasília, 2004.
Neyman, J.: The Emergence of Mathematical Statistics. A Historical Sketch with Particular Reference
to the United States. In: On the History of Statistics and Probability. Ed. D.B. Owen, Marcel Dekker,
New York, 1976.
Pearson, K.: The History of Statistics in the 17th and 18th Centuries against the changing background
of intellectual, scientific and religious thought. Edited by E.S. Pearson. Charles Griffin, London, 1978.
THE HISTORY OF STATISTICS
Abstract
This article is about the history of statistics. It is divided in five main parts: the early
days, the Biometric School, the experimentation's phase, the collection of data and the
present time. It's not only written in a theoretical point of view, but also shows the
mutual influence between different researchers. Therefore, this exchanging
information was responsible for the development of the techniques used nowadays. It
also describes why the statistics science is a group of methods that helps people to
deal with numerical data when they want to reach a conclusion. This description is
important to make people know exactly what statistics is about, because most people
don't know much about it.
Key-words: statistics; data; history; experimentation.
COMENTÁRIOS;
 Seu trabalho está for a da formatação proposta pelo modelo que
apresentei a vocês – reveja isso.
 O fato de ter usado (muito!) o copiar/colar, deixou muitas palavras
‘grudadas’ – reescreva.
 Eu disse a você que, se quisesse fazer um artigo de revisão
bibliográfica, deveria consultar muitas fontes – dez ou quinze, no
mínimo. Não foi o que você fez. Seu artigo é só um acúmulo de
informações coladas e copiadas quase que exclusivamente de uma
só fonte: “Breve História da Estatística”.
 Reelabore tudo!
Download