Prof. Carlos Camarão de Figueiredo

Propaganda
UNIVERSIDADE FEDERAL DE MINAS GERAIS
Prof. Carlos Camarão de Figueiredo
PROGRAMAÇÃO NA ESTATÍSTICA
Trabalho realizado pelo aluno
Luciano Fernandes de Ávila Oliveira do curso de Estatística,
para a disciplina Programação de computadores.
BELO HORIZONTE
2012
Introdução
Os métodos estatísticos modernos formam uma mistura de ciência, tecnologia,
e lógica para que os problemas de várias áreas do conhecimento humano
sejam investigados e solucionados. Ela é reconhecida como um campo da
ciência e é uma tecnologia quantitativa para a ciência experimental e
observacional em que se pode avaliar e estudar as incertezas e os efeitos de
algum planejamento e observações de fenômenos da natureza e
principalmente os da sociedade.
Por ser um campo de conhecimento que utiliza tanto a tecnologia, a estatística
está constantemente andando lado a lado com as linguagens de programação
que auxiliam o estatístico a realizar seus trabalhos. A seguir iremos tratar de
algumas finalidades e exemplos de programas e linguagens de programação
que são usados nas mais diversas áreas que a estatística atua.
Diversas técnicas e análises estatísticas podem ser facilitadas com o uso de
um software ou uma linguagem de programação. A importância da
programação na área estatística se da, principalmente, pelo motivo de que o
profissional estatístico trabalha o tempo todo com uma grande quantidade de
dados, que geralmente são de difícil manipulação sem o auxilio de programas
dedicados a este fim.
Em diversas situações o estatístico possui uma massa de dados e vários
questionamentos feitos pelo seu contratante. O desafio é transformar todos
aqueles dados que a princípio não oferece nenhuma resposta e muitas vezes
aparentam não ter o poder de fornecer qualquer informação relevante, em
respostas que irão satisfazer o cliente. Utilizando um programa apropriado,
pode-se começar a transformar esses dados em gráficos, por exemplo, que
fornecem uma visão mais clara do que eles querem dizer, já que
principalmente para pessoas que não possui conhecimento aprofundado em
estatística, é difícil chegar a conclusões a partir apenas de números. O
software ou a linguagem utilizada pode fornecer modelos lineares e não
lineares para modelar aquele conjunto de dados, e partir disso, conhecer as
variáveis explicativas de um determinado evento, e o quanto desse evento é
explicado por cada variável explicativa. Com os modelos é possível realizar
previsões que podem auxiliar, por exemplo, empresas a traçarem novas metas
e perspectivas, a fim de alcançar determinado objetivo.
Testes estatísticos pré-programados são usados para fornecer respostas sobre
eficiência de uma medida tomada por uma empresa. Por exemplo, com o
objetivo de aumentar a produtividade uma empresa realizou algumas
alterações na rotina da linha de produção, com base nos dados de produção
antes e depois das mudanças, pode-se dizer que a produtividade aumentou?
Quanto aumentou? O investimento financeiro aplicado valeu a pena para que
novas medidas possam ser tomadas? Os programas podem receber matrizes
de dados colhido de diferentes populações e fornecer respostas sobre
diferenças de média e desvio padrão entre elas, verificar se pode ser dito que
as médias populacionais são equivalente a partir das médias amostrais.
Um grande software que é largamente usado pelos estatísticos é o R. Ele
oferece uma grande variedade de técnicas gráficas e estatísticas, modelos,
testes clássicos, análises de séries, classificação, etc. O R é um pacote
integrado de softwares para facilitar o trabalho com dados, cálculos e exibição
de
gráficos.
As
ferramentas
incluem
um
gerenciador
de
dados
e
armazenamento, operadores para cálculos em exibições (matrizes em
particular), uma coleção de ferramentas para análise de dados, facilidades para
exibição de dados e recursos de programação para os usuários avançados.
Inclusive o R pode se associar a vários bancos de dados e bibliotecas que
utilizam outras linguagens.
Minitab
Minitab 15 é uma ferramenta eficiente e desenvolvida especialmente para a
realização de cálculos estatísticos e análises de dados. Eleconsiste de uma
planilha de dados diversos comandos e subcomandos usados para executar
operações matemáticas e diversas análises estatísticas.
O programa conta com métodos para cálculos de estatísticas descritivas,
intervalos de confiança, testes de normalidade e também testes de hipóteses.
Ideal para empresas que necessitam levantar dados e avaliar informações
imprescindíveis que podem estar interferindo na qualidade do serviço ou
produto final, visualizando todo o processo em forma de excelentes gráficos.
Com o Minitab, pode ser utilizado dados estatísticos e métodos diversos para
otimizar processos e encontrar soluções. O programa trabalha com
experimentos fatoriais, superfície de resposta, mistura e Taguchi, além dos
cálculos estatísticos mais básicos que podem ser realizados em determinadas
amostras. O objetivo do Minitab 15 é encontrar fatores de risco ou erros que
podem estar prejudicando sua empresa, de modo a encontrar uma forma para
melhorar seus processos dentro da organização ao longo do tempo.
Se uma empresa produz bens, ela pode utilizar o programa para avaliar as
características de longevidade de um determinado produto, utilizando
ferramentas de teste de vida acelerado e análise de distribuição.
Statistical Analysis System (SAS)
Um dos pacotes estatísticos mais usado hoje pelas grandes corporações com
cerca de 4 milhões de usuários é o SAS que é um sistema integrado de
aplicações para a análise de dados, que consiste de: Recuperação de dados,
Gerenciamento de arquivos, Análise estatística, Acesso a Banco de Dados,
Geração de gráficos, Geração de relatórios. Trabalha com quatro ações
básicas sobre o dado: Acessar, Manipular, Analisar e Apresentar. Pode ser
instalado em diversos ambientes operacionais disponíveis no mercado, sendo
os programas e arquivos portáveis para qualquer um desses ambientes. Na
verdade, é lendária sua portabilidade e disponibilidade. É difícil encontrar uma
plataforma viva (i.e. que ainda está em produção) que não conte com sua
versão de SAS. As origens do software datam da década de 70, quando os
computadores ainda eram operados por cartões perfurados.
Outro aspecto lendário do Sistema SAS é a habilidade de acessar praticamente
qualquer formato de dado, em qualquer base. Mesmo bases de dados
descontinuadas comercialmente ainda contam com possibilidade de acesso via
SAS. Um módulo chamado SAS/ACCESS to é o responsável por essa
funcionalidade, bastando escolher o adequado.
Diversos outros componentes do SAS System também fornecem suporte
estatístico. O Enterprise Guide é uma ferramenta OLAP para Windows,
orientado por projetos, e que possibilita acesso rápido a uma grande parte da
potencialidade analítica do SAS para estatísticos, analistas de negócios e
programadores SAS.
O Analyst Application fornece acesso do tipo "apontar e clicar" para a
funcionalidade estatística básica do software, o Base SAS. O software SAS/QC
oferece ferramentas para o aprimoramento da qualidade estatística, incluindo
ferramentas para o controle da qualidade estatística e uma interface para a
realização de experimentos. O software SAS/ETS inclui ferramentas para
econometria e análise de séries temporais. O software SAS/OR fornece uma
grande variedade de métodos de otimização com diversos aplicativos
estatísticos.
A programação na estatística não se restringe apenas a softwares estatísticos
como o SAS, Minitab ou R. Linguagens de programação como C, Java, PHP,
C# e Delphi são usadas para soluções e modelagem de dados, que podem
receber como entrada dados coletados pelo cliente, e o programa elaborado
para aquela determinada finalidade retorna com respostas que possam auxiliar
as empresas das mais diversas formas. Os programas podem oferecer
soluções e estimativas desde procedimentos rotineiros da empresa até a
grandes projetos a serem feitos. Esses programas desenvolvidos com as várias
linguagens de programação existentes voltados a cálculos estatísticos muitas
vezes não são possíveis de serem feitos apenas pelos programadores, já que
os mesmos muitas vezes não possuem conhecimento aprofundado na área.
Daí a importância do profissional da estatística ter um bom conhecimento de
programação, para que ele mesmo possa desenvolver as soluções em
software adequadas para cada cliente. Mesmo que o estatístico não domine a
linguagem a ser utilizada no projeto, é importante ter uma boa noção de lógica
de programação para que ele saiba instruir ao programador como desenvolver
o programa.
Temos um exemplo de um programa utilizado por estatísticos que foi
desenvolvido em linguagem C: é o Statist. É um programa pequeno e portável
que funciona em um terminal e também pode produzir gráficos. Seu uso é
simples e pode-se usar scripts para executá-lo, ai entra novamente a
importância do estatísticos terem conhecimento de programação. Grandes
bases de dados são razoavelmente bem analisadas em máquina pouco
potentes. O programa é completamente traduzido para o português brasileiro,
mas há em funcionamento uma versão em html da Statist que está em inglês.
Apesar de não sobrecarregar o computador, o Statist pode fazer vários tipos de
testes estatísticos e regressões, apresentando todos os resultados de modo
bastante completo.
Download