UM BREVE PANORAMA HISTÓRICO THIAGO REZENDE DOS SANTOS GABRIEL JULIANO Capítulo 1 História da Estatística 2.1. Panorama Histórico Todas as ciências têm suas raízes na história do homem. A Matemática, que é considerada “a ciência que une à clareza do raciocínio a síntese da linguagem”, originou-se do convívio social, das trocas, da contagem, com caráter prático, utilitário, empírico. A Estatística, ramo da Matemática Aplicada teve origem semelhante. Desde a Antiguidade, vários povos registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individual e social, distribuíam eqüitativamente terras ao povo, cobravam impostos e realizam inquéritos quantitativos por processos que, hoje, chamaríamos de “estatísticas”. Na Idade Média colhiam-se informações geralmente com finalidades tributárias ou bélicas. A partir do século XVI começaram a surgir às primeiras análises sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números relativos. No século XVIII o estudo de tais fatos foi adquirindo, aos poucos, feição verdadeiramente científica. Godofredo Achenwall batizou a nova ciência (ou método) com o nome de Estatística, determinando o seu objetivo e suas relações com as ciências. As tabelas tornaram-se mais completas, surgiram as representações gráficas e o cálculo das probabilidades, e a Estatística deixou de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostras). Isso o que denominamos com Inferência estatística indutiva. Atualmente, o público leigo (leitor de jornais e revistas) posiciona-se em dois extremos divergentes e igualmente errôneos quanto à validade das conclusões 2 estatísticas: ou crê em sua infalibilidade ou afirma que elas nada provam. Os que pensam assim ignoram os objetivos, o campo e o rigor do método estatístico; ignoram a Estatística, quer teórica quer prática, ou a conhecem muito superficialmente. Na era da energia nuclear, os estudos estatísticos têm avançado rapidamente e com seus processos, técnicas têm contribuído para a organização dos negócios e recursos do mundo moderno. 2.2. Estatística no século XIX A ciência chegou ao século XIX com a firme visão filosófica de que o Universo funcionaria como o mecanismo de um imenso relógio. Acreditava-se que havia um pequeno número de fórmulas matemáticas (como as leis do movimento de Newton e as leis de Boyle) capazes de descrever a realidade e prever eventos futuros. Tudo de que se necessitava para tal predição era um conjunto completo dessas fórmulas e um grupo de medições a elas associadas, realizadas com suficiente precisão. A cultura popular levou mais de 40 anos para se pôr em ida com essa visão científica. A observação de planetas e cometas a partir da Terra não se ajustava com precisão às posições previstas, fato que Laplace e seus colegas cientistas atribuíram a erros nas observações, algumas vezes atribuíveis a alterações na atmosfera da Terra, outras vezes a falhas humanas. Laplace reuniu todos esses erros numa peça extra (a função erro), que atrelou a suas descrições matemáticas. Essa função erro absorveu e deixou apenas as puras leis do movimento para prever as verdadeiras posições dos corpos celestes. Acreditava-se que, com medições cada vez mais precisas, diminuiria a necessidade da função erro. Como ela dava conta de pequenas discrepâncias entre o observado e o previsto, a ciência do século XIX estava nas garras do determinismo filosófico – a crença de que tudo é determinado de antemão pelas condições iniciais do Universo e pelas fórmulas matemáticas que descrevem seus movimentos. No final do século XIX, os erros haviam aumentado, em vez de diminuir. À proporção que as medições se tornavam mais precisos, novos erros se revelavam. O andar do Universo mecânico era trôpego. Falharam as tentativas de descobrir de as leis que Newton e Laplace tinham utilizado mostravam-se meras aproximações grosseiras. Gradualmente, a ciência começou a trabalhar com um novo paradigma, o modelo estatístico da realidade. No final do século XX, quase toda a ciência tinha passado a usar modelos estatísticos. 2.3. Aleatoriedade Para o cientista moderno, o conceito de distribuição probabilística nos permite estabelecer à aleatoriedade e nos dá limitada capacidade de prever eventos futuros aleatórios. Assim, eventos aleatórios não são simplesmente indomados, inesperados e imprevisíveis – sua estrutura pode ser descrita matematicamente. 2.4 Probabilidade Apesar da natureza incompleta da teoria de probabilidade, ela se mostrou útil para idéia, que então se desenvolvia de distribuição estatística. Uma distribuição estatística ocorre quando consideramos um problema científico específico. 3 Usando as ferramentas da probabilidade, eles construíam uma fórmula teórica para aquela distribuição, “a função de distribuição probabilística”, ou simplesmente a função de distribuição, que utilizaram para examinar a questão. Com os avanços da teoria de medida e integração e da análise matemática, A.N. Kolmogorov, em 1933, lança axiomatização da probabilidade ou a definição axiomática. Agora a medida de probabilidade pode lançar mão de ferramentas mais sofisticadas da matemática. A probabilidade é levada mais a sério e tem todo rigor e formalidade que os matemáticos tanto apreciam. 2.5. O experimento de Fisher Era uma tarde de verão em Cambridge, Inglaterra, no final dos anos 1920. Um grupo de professores universitários, suas esposa e alguns convidados tomara lugar a uma mesa no jardim para o chá da tarde. Uma das mulheres insistia em afirmar que o chá servido sobre o leite parecia ficar com o gosto diferente do que apresentava ao receber o leite sobre ele. As cabeças científicas dos homens zombaram do disparate. Qual seria a diferença? Não podiam perceber diferença alguma na química da mistura. Um homem de estatura baixa, magro, de óculos grossos interessou pelo problema. “Vamos testar a proposição”. E assim naquela tarde de verão em Cambridge. O homem de cavanhaque era Ronal Aymler Fisher, na época com 30 e tantos anos, que posteriormente receberia o título de sir Ronald Fisher.Em 1935, publicou The Design of experiments, em cujo segundo capitulo descreveu o experimento da senhora provando chá. Livro de Fisher O livro sobre desenho experimental de Fisher foi um elemento importante na revolução que atravessou todos os campos da ciência na primeira metade do século XX. Bem antes de Ilustração 2.2 - R.A. Fisher Fisher entrar em cena, experimentos científicos já vinham sendo realizados havia centenas de anos. Em Design of Experiments, Fisher forneceu alguns exemplos de bom desenho experimental, e deduziu regras gerais para eles. No entanto, a matemática dos métodos de Fisher era muito sofisticada, e a maioria dos cientistas não era capaz de gerar os seus próprios planejamentos a não ser que seguisse o padrão de algum dos que Fisher apresentara em seu livro. 4 Os cientistas agrícolas reconheceram o grande valor do trabalho de Fisher sobre o planejamento de experimentos, e os métodos Fisherianos, logo, dominaram as escolas de agricultura na maior parte do mundo de língua inglesa. Fisher versus Pearson Laplace, em 1820, descrevia a primeira distribuição probabilística. Pearson descobriu uma família de distribuições que denominou skew distributions (distribuições assimétricas). Pearson acreditava que as distribuições estatísticas descreviam as verdadeiras coleções de dados que ele iria analisar; Fisher acreditava que a verdadeira distribuição é fórmula matemática abstrata, e os dados coletados só podem ser usados para estimar os parâmetros da distribuição verdadeira. O triunfo de Fisher: • Fisher propôs o método de estimação de máxima verossimilhança (MLE); • Estabeleceu critérios para comparar os estimadores; • Experimentos aleatórios controlados; • Análise de Variância; • Graus de liberdade; • Contribuições na pesquisa agronômica; • Os métodos de Pearson jazem na poeira da história. Fisher publicou um artigo intitulado “Cigarros, câncer e estatística” na Centennial Review e dois artigos na Nature “Câncer de pulmão e cigarros?” e “Câncer e Fumar”; Ele insistia que a evidência usada para mostrar que fumar causava câncer de pulmão era cheia de imperfeições. Ilustração 2.3 - R.A. Fisher e seu cachimbo 5 2.6. Cronologia1 Ano 1857 1875 1876 1886 1890 1893 1893 1894 1895 1895 1902 1903 1908 1911 1912 1915. 1915 1916 1917 1919 1920 1925 1925 1928 1933 1934 1934 1935 1945 1947 1948 1949 1957 1959 1970 1972 1976 1977 1977 1979 1987 1990 1990 2000 2009 2010 Evento Nascimento Karl Pearson Nascimento de Paolo Cantelli Nascimento de William Gosset Nascimento de Paul Lévy Nascimento Ronald Aylmer Fisher Nascimento Chandra Mahalanobis Nascimento Harald Cramér Nascimento Jerzy Neyman Descoberta distribuições Assimétricas Nascimento Egon Pearson Primeira edição Biometrika Nascimento A. N. Kolmogorov Teste t de Student Morte de Galton 1ª publicação de Fisher Distribuição Coeficiente de Correlação Nascimento John Tukey Lema Glivenko-Cantelli Nascimento Savage Fisher Est. Exp.Rothamsted *** 1º dos artigos de integração de Lebesgue 1ª Ed. Statistical methods for research workers Teoria MV Teste hipóteses Axiomatização probabilidade Intervalos confiança Prova Teorema Central do Limite Publicação Design of Experiments Testes não-paramétricos Testes nãoparamétricos Inferência estatística não paramétrica Estudos observacionais Polêmica cigarros Formulação Definitiva testes hipóteses Teoria confiabilidade e distribuição Weibull Modelos lineares Generalizados Modelos ARIMA Testes de significância Publicação Exploratory Data Analysis Bootstrap Morte Kolmogorov Splines for Observation al Data MCMC Morte Tukey Morte Lehmann Morte Nelder Pessoa K. Pearson P. Cantelli W. S.Gosset (“Student”) P. Lévy R. A. Fisher P.C. Mahalanobis H. Cramér J. Neyman K. Pearson E. Pearson Galton, Pearson e Weldon A. N.Kolmogorov W.S. Gosset Galton Fisher Fisher Tukey Cantelli Savage Fisher Lebesgue Fisher Fisher Neyman,Pearson Kolmogorov J.Neyman Lévy, Lindeberg Fisher Wilcoxon Mann-Whitney Pitman Cochran Fisher E. L. Lehmann N. Mann J. A. Nelder Box e Jenkins Cox Tukey Efron Kolmogorov Wahba Gelfand e Smith Tukey Lehmann Nelder Os interessados em mais detalhes da história da estatística podem consultar o livro Uma senhora toma chá (The Lady Tasting Tea). Boa parte desse capítulo foi baseado no mesmo. Outros livros interessantes são Um Desafio aos Deuses (conta a história da teoria do risco) e o Andar do Bêbado o qual aborda como a aleatoriedade pode influenciar nossas vidas. 1 Fonte: Livro The Lady Tasting Tea 6