UNIVERSIDADE FEDERAL DE MINAS GERAIS Prof. Carlos Camarão de Figueiredo PROGRAMAÇÃO NA ESTATÍSTICA Trabalho realizado pelo aluno Luciano Fernandes de Ávila Oliveira do curso de Estatística, para a disciplina Programação de computadores. BELO HORIZONTE 2012 Introdução Os métodos estatísticos modernos formam uma mistura de ciência, tecnologia, e lógica para que os problemas de várias áreas do conhecimento humano sejam investigados e solucionados. Ela é reconhecida como um campo da ciência e é uma tecnologia quantitativa para a ciência experimental e observacional em que se pode avaliar e estudar as incertezas e os efeitos de algum planejamento e observações de fenômenos da natureza e principalmente os da sociedade. Por ser um campo de conhecimento que utiliza tanto a tecnologia, a estatística está constantemente andando lado a lado com as linguagens de programação que auxiliam o estatístico a realizar seus trabalhos. A seguir iremos tratar de algumas finalidades e exemplos de programas e linguagens de programação que são usados nas mais diversas áreas que a estatística atua. Diversas técnicas e análises estatísticas podem ser facilitadas com o uso de um software ou uma linguagem de programação. A importância da programação na área estatística se da, principalmente, pelo motivo de que o profissional estatístico trabalha o tempo todo com uma grande quantidade de dados, que geralmente são de difícil manipulação sem o auxilio de programas dedicados a este fim. Em diversas situações o estatístico possui uma massa de dados e vários questionamentos feitos pelo seu contratante. O desafio é transformar todos aqueles dados que a princípio não oferece nenhuma resposta e muitas vezes aparentam não ter o poder de fornecer qualquer informação relevante, em respostas que irão satisfazer o cliente. Utilizando um programa apropriado, pode-se começar a transformar esses dados em gráficos, por exemplo, que fornecem uma visão mais clara do que eles querem dizer, já que principalmente para pessoas que não possui conhecimento aprofundado em estatística, é difícil chegar a conclusões a partir apenas de números. O software ou a linguagem utilizada pode fornecer modelos lineares e não lineares para modelar aquele conjunto de dados, e partir disso, conhecer as variáveis explicativas de um determinado evento, e o quanto desse evento é explicado por cada variável explicativa. Com os modelos é possível realizar previsões que podem auxiliar, por exemplo, empresas a traçarem novas metas e perspectivas, a fim de alcançar determinado objetivo. Testes estatísticos pré-programados são usados para fornecer respostas sobre eficiência de uma medida tomada por uma empresa. Por exemplo, com o objetivo de aumentar a produtividade uma empresa realizou algumas alterações na rotina da linha de produção, com base nos dados de produção antes e depois das mudanças, pode-se dizer que a produtividade aumentou? Quanto aumentou? O investimento financeiro aplicado valeu a pena para que novas medidas possam ser tomadas? Os programas podem receber matrizes de dados colhido de diferentes populações e fornecer respostas sobre diferenças de média e desvio padrão entre elas, verificar se pode ser dito que as médias populacionais são equivalente a partir das médias amostrais. Um grande software que é largamente usado pelos estatísticos é o R. Ele oferece uma grande variedade de técnicas gráficas e estatísticas, modelos, testes clássicos, análises de séries, classificação, etc. O R é um pacote integrado de softwares para facilitar o trabalho com dados, cálculos e exibição de gráficos. As ferramentas incluem um gerenciador de dados e armazenamento, operadores para cálculos em exibições (matrizes em particular), uma coleção de ferramentas para análise de dados, facilidades para exibição de dados e recursos de programação para os usuários avançados. Inclusive o R pode se associar a vários bancos de dados e bibliotecas que utilizam outras linguagens. Minitab Minitab 15 é uma ferramenta eficiente e desenvolvida especialmente para a realização de cálculos estatísticos e análises de dados. Eleconsiste de uma planilha de dados diversos comandos e subcomandos usados para executar operações matemáticas e diversas análises estatísticas. O programa conta com métodos para cálculos de estatísticas descritivas, intervalos de confiança, testes de normalidade e também testes de hipóteses. Ideal para empresas que necessitam levantar dados e avaliar informações imprescindíveis que podem estar interferindo na qualidade do serviço ou produto final, visualizando todo o processo em forma de excelentes gráficos. Com o Minitab, pode ser utilizado dados estatísticos e métodos diversos para otimizar processos e encontrar soluções. O programa trabalha com experimentos fatoriais, superfície de resposta, mistura e Taguchi, além dos cálculos estatísticos mais básicos que podem ser realizados em determinadas amostras. O objetivo do Minitab 15 é encontrar fatores de risco ou erros que podem estar prejudicando sua empresa, de modo a encontrar uma forma para melhorar seus processos dentro da organização ao longo do tempo. Se uma empresa produz bens, ela pode utilizar o programa para avaliar as características de longevidade de um determinado produto, utilizando ferramentas de teste de vida acelerado e análise de distribuição. Statistical Analysis System (SAS) Um dos pacotes estatísticos mais usado hoje pelas grandes corporações com cerca de 4 milhões de usuários é o SAS que é um sistema integrado de aplicações para a análise de dados, que consiste de: Recuperação de dados, Gerenciamento de arquivos, Análise estatística, Acesso a Banco de Dados, Geração de gráficos, Geração de relatórios. Trabalha com quatro ações básicas sobre o dado: Acessar, Manipular, Analisar e Apresentar. Pode ser instalado em diversos ambientes operacionais disponíveis no mercado, sendo os programas e arquivos portáveis para qualquer um desses ambientes. Na verdade, é lendária sua portabilidade e disponibilidade. É difícil encontrar uma plataforma viva (i.e. que ainda está em produção) que não conte com sua versão de SAS. As origens do software datam da década de 70, quando os computadores ainda eram operados por cartões perfurados. Outro aspecto lendário do Sistema SAS é a habilidade de acessar praticamente qualquer formato de dado, em qualquer base. Mesmo bases de dados descontinuadas comercialmente ainda contam com possibilidade de acesso via SAS. Um módulo chamado SAS/ACCESS to é o responsável por essa funcionalidade, bastando escolher o adequado. Diversos outros componentes do SAS System também fornecem suporte estatístico. O Enterprise Guide é uma ferramenta OLAP para Windows, orientado por projetos, e que possibilita acesso rápido a uma grande parte da potencialidade analítica do SAS para estatísticos, analistas de negócios e programadores SAS. O Analyst Application fornece acesso do tipo "apontar e clicar" para a funcionalidade estatística básica do software, o Base SAS. O software SAS/QC oferece ferramentas para o aprimoramento da qualidade estatística, incluindo ferramentas para o controle da qualidade estatística e uma interface para a realização de experimentos. O software SAS/ETS inclui ferramentas para econometria e análise de séries temporais. O software SAS/OR fornece uma grande variedade de métodos de otimização com diversos aplicativos estatísticos. A programação na estatística não se restringe apenas a softwares estatísticos como o SAS, Minitab ou R. Linguagens de programação como C, Java, PHP, C# e Delphi são usadas para soluções e modelagem de dados, que podem receber como entrada dados coletados pelo cliente, e o programa elaborado para aquela determinada finalidade retorna com respostas que possam auxiliar as empresas das mais diversas formas. Os programas podem oferecer soluções e estimativas desde procedimentos rotineiros da empresa até a grandes projetos a serem feitos. Esses programas desenvolvidos com as várias linguagens de programação existentes voltados a cálculos estatísticos muitas vezes não são possíveis de serem feitos apenas pelos programadores, já que os mesmos muitas vezes não possuem conhecimento aprofundado na área. Daí a importância do profissional da estatística ter um bom conhecimento de programação, para que ele mesmo possa desenvolver as soluções em software adequadas para cada cliente. Mesmo que o estatístico não domine a linguagem a ser utilizada no projeto, é importante ter uma boa noção de lógica de programação para que ele saiba instruir ao programador como desenvolver o programa. Temos um exemplo de um programa utilizado por estatísticos que foi desenvolvido em linguagem C: é o Statist. É um programa pequeno e portável que funciona em um terminal e também pode produzir gráficos. Seu uso é simples e pode-se usar scripts para executá-lo, ai entra novamente a importância do estatísticos terem conhecimento de programação. Grandes bases de dados são razoavelmente bem analisadas em máquina pouco potentes. O programa é completamente traduzido para o português brasileiro, mas há em funcionamento uma versão em html da Statist que está em inglês. Apesar de não sobrecarregar o computador, o Statist pode fazer vários tipos de testes estatísticos e regressões, apresentando todos os resultados de modo bastante completo.