Estatística Aplicada e Experimentação J M Fernandes Conceitos Básicos • Definição de estatística: • Tipos de variáveis • Distribuição de probabilidades Conceitos Básicos • Estatística: A ciência de coletar, organizar e interpretar dados – Coleta de dados. – Análise de dados - organizar e resumir os dados destacando os pontos mais importantes e mostrando a estrutura. – Inferência e teoria da decisão – extrair a informação embutida nos dados podendo ser usada como guia nas próximas ações. Conceitos Básicos – População: O grupo inteiro de indivíduos que queremos obter informação. – Amostra: Uma parte da população que queremos examinar para obter a informação. – Tamanho da amostra: número de observações em uma amostra. – Inferência estatística: Tirar conclusões sobre a população considerando a informação obtida da amostra. Conceitos Básicos • Os dados contêm: – Indivíduos : Objetos descrito pelos dados; – Variável: qualquer característica de um indivíduo. Uma variável pode assumir diferentes valores para diferentes indivíduos. – Uma variável categórica coloca o indivíduo em um dos vários grupos de categoria. – Uma variável quantitativa assume valores numéricos para os quais é possível realizar operações aritméticas como soma e média, por exemplo. Tipos de dados • • • A interpretação das listas de números a olho é muito difícil. Ao invés disso, nós deveríamos produzir um resumo verbal ou numérico e/ou usar métodos gráficos para descrever os pontos principais dos dados. O método mais apropriado dependerá da natureza dos dados. Dados qualitativos ou categóricos – nominais • sexo: masculino, feminino • classificação de fósseis – ordinais • salinidade: baixa, média, alta • abundância: dominante, abundante, freqüente, ocasional, raro • Dados quantitativos ou numéricos: – discretos • número de ovos postos pela tartaruga marinha • número de ataques de asma no ano passado – contínuos • volume, área, peso, massa • velocidade de corrente Distribuição das Variáveis – Uma distribuição de variáveis indica que valores a variável assume e com que freqüência. – Para uma variável categórica, distribuição: categorias + contagem/percentagem para cada categoria – Para uma variável quantitativa, distribuição: padrão de variação dos seus valores Examinando a distribuição • Padrão Geral – Formato • Técnicas gráficas para visualizar distribuições – – – – Gráfico de Barra Torta Ramos e Folhas Histograma • Modas: picos na distribuição. – Unimodal ou Bimodal • Simétrica ou enviesada (direita/esquerda)? Examinando a distribuição – Centro • Média – – – – Fácil de calcular Fácil de manipular algebricamente Altamente influenciada por pontos for a do comum Media não resistente • Mediana – Pode tomar tempo para calcular – Mais resistente a influência de extremos – robusta • Moda, Média e Mediana – Posição relativa para enviesada/simétrica distribuição. – Qual usar? Examinando a distribuição – Dispersão • Desvio Padrão e Variância – Definição e cálculo – Soma sempre 0 – Porque (n-1)? • Quartils – Definição e cálculo – AIQ – Regra para identificar extremos fora do comum – Os cinco - números para resumo – Boxplots (Diagramas de caixa) – Comparação com histogramas e gráficos de ramos e folhas Amplitude, AIQ, D.P. Examinando a distribuição • Desvios • Fora do comum: Valores localizados for a do padrão geral. – AIQ pode ajudar a identificar pontos for a do comum – Boxplots modificados – Estratégias • Detectar, investigar a causa, corrigir, ou eliminar, ou dar especial atenção. • Usar métodos mais resistentes como a mediana para reduzir a influência de extremos for a do comum. Transformação Linear • forma: X*=a+bX • Seus efeitos no formato, centro e dispersão Análise Exploratória de Dados • Uma Introdução ao R Exemplo y<-c(8,9,3,4,5,5,6,7,11,1,11,20,5,5,6,7,8,9,11,3) Leitura de um arquivo de dados em formato texto Há dois comandos principais para ler uma base de dados em formato texto: scan e read.table. Normalmente, usa-se o comando scan quando a base de dados contém os valores de uma única variável. Para bases de dados multivariadas, contendo diversas variáveis, o comando read.table é mais adequado pois a estrutura dos dados lidos será a de uma matriz onde as colunas representarão cada variável da base. Exemplo • dados<-read.table(“c:/stat_2007/dados/estatura.txt”,header=T) • O argumento header=T, no comando acima, serve para informar que o tipo de informação que será lida tem um cabeçalho com o nome das variáveis. • Problema: Descrever estes dados numa tabela de freqüências e representá-los graficamente usando o R. Comando sort • Você pode ordenar a informação na base dados usando o comando sort que rearruma as informações de maneira ordenada. No caso destes dados ele usa a ordem alfabética como chave. • Você ainda pode escolher se deseja ordem crescente (default) ou decrescente, acrescentando o argumento decreasing=T. • sort(dados) Salvando a área de trabalho do R • Você pode salvar sua área de trabalho, caso ainda vá trabalhar nela. • Vamos fechar esta primeira aula salvando nosso trabalho em um disquete. • save.image(“a:/aulaR1.RData") • Assim na próxima seção do R onde os mesmos dados serão trabalhados, bastará executar o comando load(“a:/aulaR1.RData") Distribuições Probabilísticas Histograma • Um dos método mais comum de apresentação de dados numéricos é o histograma, relacionado com o gráfico de barras para dados categóricos. As áreas dos retângulos resultantes devem ser proporcionais à freqüência. 10 20 30 40 x <-rnorm(345,165,10) hist(x, col="red",ylab="Frequência",main="Distribuição de altura entre os alunos") 0 Frequência 50 60 70 Distribuição de altura entre os alunos 130 140 150 160 170 x 180 190 200 Terminologia • Um processo estocástico é descrito por variáveis aleatórias e as suas distribuições probabilísticas. Variáveis aleatórias O termo aleatório infere incerteza Sejam E um experimento e S o espaço associado ao experimento. Uma função X, que associe a cada elemento s S um número real X(s) é denominada variável aleatória.X Variável Aleatórias X(s)SR S X R s Variável Aleatória X(s) Exemplo : E: lançamento de duas moedas; X: nº de caras obtidas nas duas moedas; S={(c,c), (c,r), (r,c),(r,r)} X=0 corresponde ao evento (r,r) com probabilidade ¼ X=1 corresponde ao evento (r,c), (c,r) com probabilidade 2/4 X=2 corresponde ao evento (c,c) com probabilidade ¼. Variáveis aleatórias • Uma variável aleatória X, é uma etiqueta associada a um evento aleatório A. • Uma variável aleatória pode ser usada para descrever o processo de rolar um dado não viciado e os possíveis resultados (1,2,3,4,5,6). Uma outra variável aleatória poderia descrever os possíveis resultado de escolher uma pessoa ao acaso e determinar a altura. • Diferente de variáveis matemáticas, uma variável aleatória não pode ter designado um valor. É uma função que traduz as possíveis saídas como números. • Variáveis aleatórios tem a notação (X,Y,Z...) • Valores específicos ou instâncias das variáveis aleatórias assumem a notação (x,y,z....). Variáveis aleatórias • As variáveis aleatórias podem ser categóricas ou discretas ou contínuas • Uma variável discreta -> Distribuição de probabilidade • Uma variável contínua -> Função de distribuição de probabilidades Variáveis aleatórias e Distribuição de Probabilidades • Registrando todas as possibilidades de variável aleatória X resulta na probabilidade de distribuição de X Distribuição de Probabilidade A distribuição de probabilidade de uma variável discreta X é uma função que calcula a probabilidade p(xi)que a variável aleatória seja igual a xi, para cada valor de xi: p(xi)=P(X=xi) Fx(X) probabilidade da variável aleatória X assumir o valor de xi Conceito de Probabilidade Proporção de tempo onde espera-se que o resultado seja conforme o desejado, antes de realizar o experimento Probabilidade de um evento= Ocorrências/ total possível de ocorrências Freqüência relativa Proporção de tempo que um evento do mesmo tipo irá ocorrer ao longo prazo Probabilidade da variável aleatória assumir um valor no intervalo • Se y é discreto Probabilidade Y assumir valores no Intervalo de a e b • Se y é contínuo Densidade de probabilidade no Intervalo de a e b Distribuição Cumulativa de Probabilidades Se Y for discreto Se Y for contínuo Probabilidade de Y assumir qualquer valor menor ou igual a y, para cada valor de y Distribuição Cumulativa e Função de Distribuição de Probabilidades Exemplo: Exemplo • Caso discreto: Distribuição de Probabilidade xi P(xi) 0 1/32 1 5/32 2 3 4 10/32 10/32 5/32 5 1/32 Distribuição Cumulativa de Probabilidade xi P(xi) 0 1/32 1 6/32 2 3 4 5 16/32 26/32 31/32 32/32 Exemplo par(mfrow=c(2,1)) # DP x1 <-c(1,5,10,10,5,1) x1 <-x1/32 z <-barplot(x1,ylim=c(0,max(x1)*1.2), col="red") text(z,x1+.02,x1) # FDP x2 <-c(1,6,16,26,31,32) x2 <-x2/32 z2 <-plot(x2,ylim=c(0,1),type="l",lwd=3, col="red") Esperança matemática de uma variável aleatória • As distribuições de probabilidade é geralmente caracterizada um pequeno número de parâmetros. • Em geral é suficiente conhecer a “média”. Esta pode ser obtida pelo conceito de esperança matemática com a notação de E(X). • Esperança matemática (ou simplesmente média) - E (x) – é um número real, é também uma média aritmética. Esperança matemática de uma variável aleatória Média de um distribuição de probabilidades Se as probabilidades de obter as quantidades a1,a2,a3,..an são p1,p2,p3...pn Então a esperança matemática é: E(A)=a1p1+a2p2+a3p3...anpn Uma média ponderada - onde os pesos são os valores da probabilidade Esperança matemática de uma variável aleatória Esperança matemática para o número de caras obtida em três tentativas de rolar uma moeda As probabilidades de 0,1,2,3 caras são: 1/8,3/8,3/8,1/8 μ= 0*(1/8)+(1*3/8)+(2*3/8)+(3*1/8)=3/2 Esperança matemática de uma variável aleatória Discreto Contínuo Variância da distribuição de probabilidade A variância de uma variável aleatória (ou de uma distribuição) é uma medida estatística da dispersão, indicando como os possíveis valores estão distribuídos ao redor do valor esperado. Var(X)=E((X-E(X))2 O desvio padrão de uma variável aleatória ou de uma distribuição de probabilidades é a raiz quadrada de Var(X). Enviezamento Uma medida de assimetria da distribuição de probabilidade. Curtose Uma medida de achatamento da distribuição de probabilidade Distribuições empíricas de probabilidade Um estimativa empírica de uma distribuição de probabilidades é obtida da amostragem dos dados Distribuição teórica de probabilidades Distribuição de Bernoulli A distribuição de Bernoulli assume o valor 1 com probabilidade p e o valor 0 com probabilidade q=1-p População descrita por único parâmetro p Descreve-se X~Be(p) Distribuição Binomial Uma distribuição discreta de probabilidades do número de sucessos em uma seqüência de n eventos independentes do tipo sim/não, onde o sucesso de cada um é determinado por uma probabilidade p Premissas Tem apenas duas possibilidades A probabilidade de sucesso é mesma a cada tentativa Existem n tentativas e n é uma constante As n tentativas são independentes p é a probabilidade de sucesso 1-p é a probabilidade de falha Descreve-se X~Bin(n,p) Distribuição Binomial A esperança matemática é: E(X)=np A variância é: Var(X)=np(1-p) Para um valor elevado de n, a distribuição Binomial Se aproxima da distribuição Normal Distribuição Binomial x<-0:10 y<-dbinom(0:10,10,0.16) data.frame("Prob"=y,row.names=x) Prob 0 1.749012e-01 1 3.331452e-01 2 2.855530e-01 3 1.450428e-01 4 4.834760e-02 5 1.105088e-02 6 1.754108e-03 7 1.909233e-04 8 1.363738e-05 9 5.772436e-07 10 1.099512e-08 plot(0:10,dbinom(0:10,10,0.16),,type='h',xlab="“, ylab="Probabilidade", sub="Número de crianças com olhos azuis") Distribuição de Poisson Expressa a probabilidade que um número de eventos venham a ocorrer em um determinado período fixo de tempo. A probabilidade que existam exatamente m ocorrências (m inteiro e positivo) é: е a base do logaritmo natural (2,71828..), λ é um número real positivo, equivalente ao número esperado de ocorrências durante um certo intervalo. Distribuição de Poisson A esperança matemática de uma variável aleatória na distribuição de Poisson é igual a λ e, também a sua variância. E(X)= λ Var(X)= λ Descreve-se X~Poisson(λ) Distribuição de Poisson A distribuição de Poisson surge com os processos de Poisson Vários fenômenos discretos que podem ocorrer 0,1,2,3 ....vezes em um certo intervalo • Número de carros que passam no pedágio • Número de ligações telefônicas por hora • Número de acessos no servidor por minuto • Número de acidentes por unidade de comprimento da estrada • Número de chamadas no corpo de bombeiros Distribuição de Poisson Encontre a possibilidade de x sucessos durante um intervalo de tempo T Divida o intervalo em n partes de comprimento Δt de maneira que: T=n* Δt Distribuição de Poisson A medida que a média aumenta a distribuição desloca-se para a direita e espalha-se Distribuição de Poisson # Distribuição de Poisson Lambda=2 x<-0:10 y<-dpois(0:10,0.2) data.frame("Prob"=y,row.names=x) Prob 0 8.187308e-01 1 1.637462e-01 2 1.637462e-02 3 1.091641e-03 4 5.458205e-05 5 2.183282e-06 6 7.277607e-08 7 2.079316e-09 8 5.198290e-11 9 1.155176e-12 10 2.310351e-14 plot(0:10, dpois(0:10,0.2), type='h', xlab="Sequência de Erros", ylab="Probabilidade") plot(0:10,ppois(0:10,0.2),xlab="# Sequência de Erros", ylab="Prob. Cumulativa", type='s') Distribuição de Poisson par(mfrow=c(2,2)) plot(0:10,dpois(0:10,0.5),xlab="",ylab="Prob”, type='h',main="Lambda 0.5") plot(0:10,dpois(0:10,1),xlab="",ylab="Prob",ty pe='h',main="Lambda 1") plot(0:10,dpois(0:10,2),xlab="",ylab="Prob",ty pe='h',main="Lambda 2") plot(0:10,dpois(0:10,5),xlab="",ylab="Prob",ty pe='h',main="Lambda 5") Distribuição Uniforme Uma variável aleatória tem a mesma probabilidade de assumir qualquer valor no intervalo de a e b. Descreve-se X~U(a,b) Variável Aleatória Contínua • Uma variável aleatória cujos valores são expressos em uma escala contínua é dita uma variável aleatória contínua. • Podemos construir modelos teóricos para v.a.’s contínuas escolhendo adequadamente a função de densidade de probabilidade (f.d.p.), que é uma função indicadora da probabilidade nos possíveis valores de X. • Assim, a área sob a f.d.p. entre dois pontos a e b nos dá a probabilidade da variável assumir valores entre a e b, P(a<X<b) a b Variável Aleatória Contínua Portanto, podemos escrever: b P(a X b) f ( x)dx a Da relação entre a probabilidade e a área sob a função, a inclusão ou não dos extremos a e b na expressão acima não afetará os resultados. Assim, iremos admitir Teoricamente, qualquer função f(x) que seja não negativa e cuja área total sob a curva seja igual à unidade, ou seja, caracterizará uma v.a. contínua. Dada a v.a. contínua X, assumindo os valores no intervalo entre a e b, chamamos valor médio ou esperança matemática de X ao valor P ( a X b) P ( a X b) P ( a X b) P ( a X b) f ( x)dx 1 b E ( X ) x f ( x)dx a Variável Aleatória Contínua Chamamos variância de X ao valor Var ( X ) E ( X 2 ) [ E ( X )]2 onde b E ( X ) x 2 f ( x)dx 2 a e de desvio padrão de X a Se X é uma v.a. contínua com f.d.p. f(x) definimos a sua função de distribuição acumulada F(x) como: DP( X ) Var( X ) x F ( x) P( X x) f (t )dt Distribuição Normal – formato • Simétrica ao redor da média; • Unimodal; • Formato de sino. – centro e dispersão – A regra 68-95-99.7 Distribuição Normal • Padronização e Escore-z – Efeitos da padronização • Padronização é uma transformação linear. • Os valores padronizados de uma distribuição tem média igual a zero e desvio padrão 1. • Efeitos no formato, centro e dispersão. – Transformação Linear: normal em normal. Distribuição Normal • Distribuição Normal Padrão X Z • Tabela de Escores-z • Cálculo da probabilidade Distribuição Normal A distribuição normal ou gaussiana é extremamente importante para vários ramos da ciência. Representa uma família de distribuições com um formato similar variando nos parâmetros média (localização) e desvio padrão (forma). Descreve-se X~N(μ,σ) Distribuição Normal A distribuição normal é a mais importante das distribuições de probabilidades. Conhecida como a “curva em forma de sino”, a distribuição normal tem sua origem associada aos erros de mensuração. É sabido que, quando se efetuam repetidas mensurações de determinada grandeza com um aparelho equilibrado, não se chega ao mesmo resultado todas as vezes; obtém-se, ao contrário, um conjunto de valores que oscilam, de modo aproximadamente simétrico, em torno do verdadeiro valor. Construindo-se o histograma desses valores, obtém-se uma figura com forma aproximadamente simétrica. Gauss deduziu matematicamente a distribuição normal como distribuição de probabilidade dos erros de observação, denominando-a então “lei normal dos erros”. Inicialmente se supunha que todos os fenômenos da vida real devessem ajustar-se a uma curva em forma de sino; em caso contrário, suspeitava-se de alguma anormalidade no processo de coleta de dados. Daí a designação de curva normal. A observação cuidadosa subseqüente mostrou, entretanto, que essa pretensa universalidade da curva, ou distribuição normal, não correspondia à realidade. De fato, não são poucos os exemplos de fenômenos da vida real representados por distribuições não normais, curvas assimétricas, por exemplo. Mesmo assim, a distribuição normal desempenha papel preponderante na estatística, e os processos de inferência nela baseados têm larga aplicação. Distribuição Normal x<-seq(-10,10, length=100) plot(x,dnorm(x,0,1), xlab="x", ylab="f(x)", type='l', main="FDP Normal") Distribuição Normal x<-seq(-10,10, length=100) par(mfrow=c(2,1)) plot(x,dnorm(x,0,2),xlab="x“, ylab="f(x)", type='l', main="Normal FDP,scale 2") plot(x,dnorm(x,0,5),xlab="x", ylab="f(x)",type='l', main="Normal FDP,scale 5")