ISCTE 2009-10 1/68 Estatística I Finanças e Contabilidade Margarida Cardoso Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 2/68 Introdução Objectivos principais da Estatística A teoria estatística procura responder a 3 questões básicas: − Como recolher dados para analisar − Como analisar e sumarizar os dados recolhidos − Qual a precisão dos resultados da análise Nota sobre o SPSS O SPSS será utilizado para apoiar o estudo de Estatística I e viabilizar a realização de trabalhos aplicados. Em cada opção de Análise no SPSS, a entrada Help permite esclarecer conteúdos genéricos dos procedimentos de Análise, assim como ilustrar “passo a passo”, cada entrada específica da opção. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 3/68 1 Estatística Descritiva É no século XVII que a Estatística se torna uma disciplina autónoma, tendo como objecto os assuntos do estado (sentido etimológico da palavra). Nesta época surgem as primeiras análises de dados numéricos (nomeadamente demográficos). A Estatística Descritiva implanta-se antes do cálculo das probabilidades. 1.1 Conceitos Básicos População e Amostra População alvo: a totalidade dos elementos de interesse acerca dos quais desejamos obter informação A recolha de informação pode incidir sobre: − a População alvo → Recenseamento − uma parte da população ou Amostra → Amostragem Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 4/68 A decisão Recenseamento ou Amostragem envolve múltiplos factores: Dimensão da população, capacidade de controlo da qualidade das medições, natureza destrutiva das medições, custos (tempo e dinheiro), … Amostra observada Amostra de n observações: x1…xn (designando o 1º,2º,..., n-ésimo elementos observados de uma amostra, respectivamente) Amostra ordenada de n observações: x1:n, x2:n….xn:n (designando o 1º,2º,...n-ésimo elementos observados de uma amostra ordenada de modo crescente, respectivamente) Amostra com observações repetidas (dados agrupados): x1 x2 … … xk Tópicos de Estatística I n1 n2 nk Margarida Cardoso ISCTE 2009-10 5/68 Amostra com observações classificadas: Classes de xi (L1,L2] (L2,L3] … (LC,LC+1] Frequência n1 n2 … nC Níveis de mensuração Os dados podem resultar de medidas: − nominais − ordinais − intervalares − de razão Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 6/68 1.2 Medidas de Localização Dados nominais Moda: xi com frequência máxima Dados ordinais Moda: xi com frequência máxima Mínimo: x1:n Máximo: xn:n Percentis: Pk, 0<k<1 − se nk inteiro, Pk= xnk:n − se nk não inteiro, Pk= x[nk+1]:n em que [x] indica o maior inteiro menor que x Nota: P0,5 é a denominado mediana; P0,25 e P0,75 são quartis Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 7/68 Dados intervalares e de razão n ∑x Média: x= i i =1 n Percentis: Pk, 0<k<1 − se nk inteiro, Pk= (xnk:n + xnk+1:n) / 2 − se nk não inteiro, Pk= X[nk+1]:n 1.3 Medidas de dispersão Dados ordinais Amplitude amostral: xn:n – x1:n Amplitude inter-quartis : P0,75 – P0,25 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 8/68 Extremos (Outliers): − Extremo severo: xi < P0,25 – 3 (P0,75-P0,25) ou xi > P0,75 + 3 (P0,75-P0,25) − Extremo moderado P0,25 – 3 (P0,75-P0,25) < xi < P0,25 – 1,5 (P0,75-P0,25) P0,75 + 3 (P0,75-P0,25) > xi > P0,75 + 1,5 (P0,75-P0,25) Dados intervalares e de razão n Variância: 2 x s = ∑ (x i − x) i =1 n n ∑ xi 2 = i =1 n 2 −x 2 n 2 s = s (no SPSS) Variância corrigida: n −1 '2 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 9/68 Desvio padrão: s =√s2 Coeficiente de variação: s / x n ∑x Desvio médio: i −x i =1 n 1.4 Algumas representações tabulares e gráficas Dados nominais e ordinais Tabela de frequências Gráfico de barras Gráfico circular ... Exemplo: Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 Tópicos de Estatística I 10/68 Margarida Cardoso ISCTE 2009-10 11/68 Dados intervalares e de razão Gráfico de caixa e bigodes Histograma e polígono de frequências ... Exemplo: Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 12/68 P0,75+1,5*H P0,75 H P0,5 P0,25 P0,25-1,5*H Nota: Neste tipo de representação também é comum o uso dos valores mínimo e máximo como extremos. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 13/68 1.5 Mais sobre Medidas descritivas Amostra com observações repetidas k ∑n x i x= i i =1 n k s 2X = 2 n ( x − x ) ∑ i i i =1 n Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 14/68 Amostra com observações classificadas K nk c x ≈ ∑ xk k =1 n K 2 n s 2X ≈ ∑ k (x ck − x ) k =1 n c x em que k representa o ponto médio da classe k de observações. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 15/68 Transformações de origem e escala Transformação X → Y=X+c X → Y=cX Média y = x+c y = cx Variância e D. Padrão s2Y = s2X sY = c sX Uma transformação particular (observações padronizadas): yi = (x i − x) sX (x i − x) yi ∑ ∑ sX i =1 i =1 y= = =0 n n n n n 2 sY = ∑ ( y i − y) i =1 n n ∑ yi 2 = i =1 n 2 =1 Exercício: Demonstrar os resultados apresentados Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 16/68 1.6 Associação entre duas variáveis Representações gráficas e tabulares Dados qualitativos Uma forma simples de apresentar a associação entre dados de medidas qualitativas é através de uma representação tabular cruzada. Exemplo: Onde pratica desporto? * Com que frequência pratica desporto? Crosstabulation Onde pratica desporto? Clube desportivo Ginásio particular Org. cariz social Em casa Outro local Total Tópicos de Estatística I Count % within Onde pratica desporto? % within Com que frequência pratica desporto? Count % within Onde pratica desporto? % within Com que frequência pratica desporto? Count % within Onde pratica desporto? % within Com que frequência pratica desporto? Count % within Onde pratica desporto? % within Com que frequência pratica desporto? Count % within Onde pratica desporto? % within Com que frequência pratica desporto? Count % within Onde pratica desporto? % within Com que frequência pratica desporto? De vez em quando 6 Com que frequência pratica desporto? 2 3 vezes/se vezes/se 1 vez/semana mana mana 3 20 9 Todos os dias 1 Total 39 15,4% 7,7% 51,3% 23,1% 2,6% 100,0% 35,3% 10,7% 39,2% 33,3% 10,0% 29,3% 0 3 19 9 2 33 ,0% 9,1% 57,6% 27,3% 6,1% 100,0% ,0% 10,7% 37,3% 33,3% 20,0% 24,8% 3 3 2 3 2 13 23,1% 23,1% 15,4% 23,1% 15,4% 100,0% 17,6% 10,7% 3,9% 11,1% 20,0% 9,8% 1 0 1 3 2 7 14,3% ,0% 14,3% 42,9% 28,6% 100,0% 5,9% ,0% 2,0% 11,1% 20,0% 5,3% 7 19 9 3 3 41 17,1% 46,3% 22,0% 7,3% 7,3% 100,0% 41,2% 67,9% 17,6% 11,1% 30,0% 30,8% 17 28 51 27 10 133 12,8% 21,1% 38,3% 20,3% 7,5% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Margarida Cardoso ISCTE 2009-10 Tópicos de Estatística I 17/68 Margarida Cardoso ISCTE 2009-10 18/68 Dados qualitativos vs quantitativos Exemplo: Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 19/68 Dados quantitativos Exemplo: (vendas de lojas em 2 anos seguidos) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 20/68 Medidas de associação Dados nominais binários Sobre os dados de uma tabela cruzada de duas variáveis binárias (x=0,1; y=0,1) podem calcular-se as medidas Odd e Odd ratio: x y 1 0 1 a b 0 c d a c As medidas Odd – ODD = b e ODD = d - ilustram a relação entre a frequência de ocorrência de y=1 vs y=0 observada nos grupos x=1 e x=0, respectivamente. a/b c/d A medida Odd ratio – - ilustra a relação entre os odds (de y=1 vs y=0) nos dois grupos. OR = Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 21/68 Dados intervalares ou de razão Medida de Covariância: ∑ (x n s XY = i )( − x yi − y i =1 n ) ∑x y n i = i =1 n i − xy Coeficiente de correlação linear ou de BravaisPearson: rXY rXY s XY = s Xs Y Exercício: Demonstre que rXY é a covariância entre x e y padronizadas Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 22/68 1.7 Regressão Linear Simples A existência de associação linear entre x e y permite adoptar um modelo linear de regressão: ŷ = a + bx em que a e b resultam de minimizar os erros quadráticos n 2 ( ) ŷ − y ∑ i i i =1 pelo que se obtém a = y − bx ( x − x )( y − y) ∑ b=r ∑ (x − x) n∑ x y − ∑ x ∑ y = n ∑ x − (∑ x ) XY sY = sX i i 2 i Tópicos de Estatística I i i 2 i i i 2 i Margarida Cardoso ISCTE 2009-10 23/68 Atendendo a que a variação total (a priori) ∑ (y n i −y ) 2 i =1 pode ser decomposta em variação explicada pelo modelo ŷ e em variação residual, n 2 ( ) ŷ − y ∑ i i i =1 o coeficiente de determinação n R 2 = 1− 2 ( ) ŷ − y ∑ i i i =1 n ∑ (y i −y ) 2 i =1 pode ser visto como uma medida de precisão do modelo, indicando a proporção de variação de y explicada pelo mesmo. (Note-se que neste caso se tem R2 = r2). Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 24/68 2 Teoria das Probabilidades 2.1 Experiência aleatória e acontecimentos Um processo capaz de produzir resultados observáveis diz-se aleatório quando está sujeito a factores aleatórios (ou casuais), produzindo resultados sobre os quais há incerteza. Um processo aleatório diz-se uma experiência aleatória nas condições seguintes: - Replicabilidade. - Existência de um conjunto Ω de resultados possíveis (acontecimentos) que se designa por espaço de resultados. - Regularidade na ocorrência dos resultados associada à repetição da experiência. Sejam A⊂ Ω e B⊂ Ω. - A ⊂ B: é subacontecimento de B se a realização de A implica a de B. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 25/68 - Ac ou A : diz-se acontecimento complementar de A se contém todos os elemntos de Ω que não estão em A. - A ∪ B: é a união de dois acontecimentos A e B (corresponde à realização de A ou B) - A ∩ B: a é intersecção de dois acontecimentos A e B (corresponde à realização de A e B) - A-B: define a diferença de A e B i.e. A ∩ Bc - A e B são incompatíveis se A ∩ B=φ 2.2 Conceito de Probabilidade O conceito de probabilidade permite analisar a incerteza associada aos acontecimentos. Há, no entanto, diferentes conceitos de probabilidade. Por exemplo: − Conceito clássico: NA P( A ) = N N - número de resultados possíveis (mutuamente exclusivos e equiprováveis) NA – número de resultados favoráveis à ocorrência do acontecimento A Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 26/68 − Conceito frequencista: lim P(A) = N→+∞ NA N − Conceito axiomático: 0 ≤ P(A) ≤ 1 Se A fôr acontecimento certo: P ( A ) = 1 Se A e B forem acontecimentos incompatíveis: P( A ∪ B) = P( A ) + P ( B) 2.3 Teoremas fundamentais Probabilidades de acontecimentos − Acontecimento Impossível: P(A)=0 − Acontecimento Complementar: P(Ac)=1-P(A) − Diferença de Acontecimentos: P(B-A)=P(B ∩ Ac)=P(B) – P(A ∩ B) − União de Acontecimentos: P(A U B) = P(A) + P(B) – P (A ∩ B) P (A1 U A2 U A3) = Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 27/68 P(A1) + P(A2) + P(A3) – P(A1 ∩ A2) – P(A1∩ A3) - P(A2 ∩ A3) + P(A1 ∩ A2 ∩ A3) (…) − Subacontecimento: Se A ⊆ B então P(A) ≤ P(B) Probabilidade condicionada P(B | A ) = P( A ∩ B) P( A ) em que P(A) > 0 Probabilidades compostas n P(I A i ) = P(A 1 ) P( A 2 | A 1 )...P( A n | A1 ∩ ... ∩ A n −1 ) i =1 n com P( I Ai ) > 0 i =1 Independência de acontecimentos P(A ∩ B)=P(A)P(B) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 28/68 n P(I A i ) = P( A1 ) P( A 2 )...P( A n ) i =1 Obs.:A independência também se define para acontecimentos condicionados Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 29/68 Probabilidade total Considere que A1… AR definem uma partição de Ω e B ⊆ Ω (v. exemplo na figura seguinte) R P(B) = ∑ P(A r ∩ B) r =1 pelo que R P(B) = ∑ P(B | A r )P(A r ) r =1 Teorema de Bayes Considere que A1… AR definem uma partição de Ω e P(Ar)>0 (r=1…R) e B ⊆ Ω P( A i | B) = P( A i )P(B | A i ) R ∑ P( A r )P(B | A r ) r =1 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 30/68 3 Variáveis Aleatórias 3.1 Conceito de variável aleatória (v.a.) Uma v.a. X - X(A)- é uma função que faz corresponder a cada acontecimento A, um valor real. A v.a. utiliza-se para expressar o resultado de uma experiência aleatória. Este conceito permite efectuar o cálculo de probabilidades a partir dos valores reais que são imagens dos acontecimentos. O conceito de v.a. unidimensional pode ser alargado: o resultado de uma experiência pode ser traduzido por pares de valores reais (v.a. bidimensional) ou, mais geralmente, n-uplos de valores reais (v.a. multidimensionais). 3.2 Função de distribuição de v.a. X (f.d.) FX(x)=P(X ≤ x) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 31/68 Para qualquer f.d. FX (x): − 0 ≤ FX(x) ≤ 1 − FX é monótona não decrescente lim FX ( x ) = 1 − FX ( +∞ ) = x → +∞ lim FX ( x ) = 0 − FX ( −∞ ) = x → −∞ − P(x1 < X ≤ x2)= FX (x2)-FX(x1), x2>x1 Nota: O conhecimento da f.d. de X permite calcular probabilidades associadas a vários acontecimentos específicos. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 32/68 3.3 Função de distribuição de vector aleatório bidimensional ou par aleatório (X,Y) FX,Y(x,y)=P(X ≤ x, Y ≤ y ) Para qualquer f.d. FXY (x,y): − 0 ≤ FX,Y(x,y) ≤ 1 − FX ,Y ( x 1 , y1 ) ≤ FX ,Y ( x 2 , y 2 ) , x2>x1, y2>y1 − − FX ,Y ( +∞,+∞ ) = lim FX ,Y ( x , y) = 1 x → +∞ x → +∞ FX ,Y ( +∞,+∞ ) = lim FX ,Y ( x , y) = 0 x → −∞ x → −∞ FX ,Y ( x , y) = 0 − FX ,Y ( −∞, y) = xlim → −∞ FX ,Y ( x , y) = 0 − FX ,Y ( x ,−∞ ) = ylim → −∞ Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 33/68 3.4 Variáveis aleatórias discretas Uma v.a. X diz-se discreta quando X tem contradomínio –D- finito ou infinito numerável Função (massa) de probabilidade (f.p.) de v.a. X P(X=x) > 0 se x ∈ D fX(x)= 0 caso contrário Qualquer f.p. verifica: fX ( x) ≥ 0 ∑ fX ( xi ) = 1 xi ∈D P( x ∈ E) = ∑ fX ( xi ) xi ∈E ∩D A f.d. de uma v.a. discreta pode exprimir-se em função da correspondente f.p.: FX ( x ) = ∑f X (x i ) xi ≤x Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 34/68 Média ou Valor esperado da v.a. X E(X) = µ X = ∑ x .f i X (x i ) x i ∈D Considerando uma v.a.Y, função da v.a. X – Y=ν(X) – tem-se que E(Y)=E(ν(X)), pelo que, E(Y) = ∑ ν(x ).f i X (x i ) x i ∈D Casos particulares: E(K); E(kX) Variância da v.a. X [ ] V(X) = σ 2X = E (X − E(X )) = E(X 2 ) - E 2 (X) 2 Casos particulares: V(K); V(kX) Desvio padrão da v.a. X σX Percentil de ordem k (0 < k < 1) da v.a. X τk é o menor valor de X que verifica F(τk ) ≥ k Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 35/68 3.5 Par aleatório discreto Um par aleatório (X,Y) diz-se discreto quando tem contradomínio –D- finito ou infinito numerável Função (massa) de probabilidade conjunta de (X,Y) fX,Y(x,y)= P(X=x, Y=y) > 0 se (x,y) ∈ D 0 caso contrário verificando: f X , Y ( x , y) ≥ 0 ∑f XY ( x i , y i )∈D (x i , y j ) = 1 A f.d. do par a. discreto pode exprimir-se em função da correspondente f.p.: FX ,Y ( x, y) = Tópicos de Estatística I ∑f X ,Y x i ≤ x , yi ≤ y (x i , y i ) Margarida Cardoso ISCTE 2009-10 36/68 Funções de probabilidade marginal f X ( x ) = ∑ f X ,Y ( x, y i ) yi f Y ( y ) = ∑ f X , Y ( x i , y) xi Independência de duas v.a. X e Y ∀x, y fX,Y (x,y)= fX,(x)fY(y) Entre duas variáveis independentes não há qualquer tipo de associação. Covariância de duas v.a. X e Y A medida de covariância – Cov(X,Y) - mede a existência de associação linear entre X e Y (v.a. de natureza quantitativa). Se a covariância for nula não há associação linear. Cov(X,Y)=E(XY)-E(X)E(Y), em que ∑ x .y f E(X, Y) = i j XY (x i , y j ) (x i , y j )∈D Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 37/68 3.6 Algumas distribuições de v.a. discretas Distribuição Uniforme (Discreta): X ∼ U(1/N) X pode modelar, por exemplo, número inscrito na face superior de um dado que foi lançado ao ar f ( x ) = 1 / N, x = 1,2,....N =0, caso contrário E(X)=(N+1)/2 e V(X)=(N2-1)/12 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 38/68 Distribuição Bernoulli: X ∼ B(1,p) X pode modelar ocorrência de sucesso ou insucesso numa prova binária (com probabilidade de sucesso p) f ( x ) = P(X = x ) = p x (1 − p)1− x se x=0,1 =0, caso contrário E(X) = p e V(X) = p (1-p) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 39/68 Distribuição Binomial: X ∼ B(n,p) X pode modelar número de sucessos em n provas binárias independentes (probabilidade de sucesso - p mantém-se constante nas n provas)… f ( x ) = P(X = x ) = C nx p x (1 − p) n − x x=0,1…n E(X) = np e V(X) = np(1-p) Distribuição de n-X Sendo X ∼ B(n,p) tem-se n-X∼ B(n,1-p) Aditividade da distribuição Binomial Sejam Xk (k=1...K) variáveis independentes e Xk ∼ B(nk,p) Então, ΣXk ∼ B(Σnk,p) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 40/68 Distribuição de Poisson: X ∼ P(λ) X pode modelar número de ocorrências por unidade de tempo… e −λ λ x f (x) = P[X = x] = , x = 0,1,2,L x! λ >0 E[X ] = λ e Var[X] = λ Notas: 1. − Considerando unidades de tempo não sobrepostas os números de ocorrências são independentes − Considerando unidades de tempo iguais, observa-se idêntica probabilidade associada a um certo número de ocorrências − Considerando unidades de tempo muito pequenas a probabilidade de 2 ou mais ocorrências é desprezável 2. A distribuição de Poisson pode ser vista como uma “forma limite” da distribuição Binomial quando n→+∞, p→0 e np se mantém constante (np=λ)1 1 Um regra empírica proporcionando uma aproximação aceitável da binomial à Poisson considera n >20 e p<0,05 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 41/68 Aditividade da distribuição Poisson Sejam Xk (k=1...K) variáveis independentes e Xk ∼ P(λk) Então, ΣXk ∼ P(Σλk) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 42/68 3.7 Variáveis aleatórias contínuas Uma v.a. X diz-se contínua quando tem contradomínio –D- infinito, não numerável. Função densidade de probabilidade (f.d.p.) de v.a. X A fX(x) apresentada acima é a função densidade de probabilidade da v.a. X (f.d.p.). Esta função verifica: f X (x) ≥ 0 +∞ ∫f X ( x ).dx = 1 −∞ A f.d. da v.a. contínua pode exprimir-se em função da correspondente f.d.p.: x FX ( x ) = ∫ f X (u)du −∞ Média ou Valor esperado da v.a. X +∞ E(X) = µ X = ∫ x.f X ( x )dx -∞ Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 43/68 Considerando uma v.a.Y, função da v.a. X – Y=ν(X) – tem-se que E(Y)=E(ν(X)), pelo que, +∞ E(Y) = ∫ ν( x ).f X ( x )dx −∞ A variância e o desvio padrão definem-se, tal como para as v.a. discretas, em função de E(X). Percentil de ordem k (0 < k < 1) da v.a. X τk é o valor de X que verifica F(τk )=k Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 44/68 3.8 Par aleatório contínuo Um par aleatório (X,Y) diz-se contínuo quando tem contradomínio –D- infinito, não numerável. Função densidade de probabilidade conjunta de (X,Y) P(X∈[x, x+dx[, Y∈[y, y+dy[)=fX,Y(x,y)dxdy A fX,Y(x,y) verifica: f X , Y ( x , y) ≥ 0 + ∞+ ∞ ∫ ∫f X ,Y ( x , y)dxdy = 1 − ∞− ∞ A f.d. do par contínuo pode exprimir-se em função da correspondente f.d.p.: x y FX ,Y ( x , y) = ∫ ∫f X ,Y ( u , v)dudv − ∞− ∞ Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 45/68 Funções densidade de probabilidade marginais +∞ f X ( x ) = ∫ f X ,Y ( x , v)dv −∞ +∞ f Y ( y) = ∫ f X ,Y ( u , y)du −∞ Independência de duas v.a. X e Y ∀x, y fX,Y (x,y)= fX,(x)fY(y) Entre duas variáveis independentes não há qualquer tipo de associação. Covariância de duas v.a. X e Y A medida de covariância – Cov(X,Y) - mede a existência de associação linear entre X e Y. Se a covariância for nula não há associação linear. Cov(X,Y)=E(XY)-E(X)E(Y), em que +∞+∞ E ( X, Y ) = ∫ ∫ xyf X ,Y ( x , y)dxdy − ∞−∞ Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 46/68 3.9 Algumas distribuições de v.a. contínuas Distribuição Uniforme: X ∼ U[a,b] 1 (b − a ), x ∈(a , b ) f (x) = 0, contrário E(X) = (a+b)/2 e V(X) = (b-a)2/12 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 47/68 Distribuição Normal: X ∼ N(µ,σ) f (x) = 1 2πσ 2 e 1 x −µ − 2 σ 2 em que x ∈ (-∞, +∞), µ ∈ (-∞, +∞) e σ > 0 E(X) = µ e V(X) = σ2 Transformação de v.a. X ∼ N(µ,σ) Se V = a + b X e X ∼ N(µ,σ) então V ∼ N (a+ bµ, √(b2σ2)) Em particular: Z=(X - µ)/σ ⇒ Z ∼ N(0,1) Nota: É habitual, no caso da distribuição normal padronizada - N(0,1) - designar a fdp f(x) por φ e a fd F(x) por Φ. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 48/68 Aditividade da distribuição Normal Sejam Xk (k=1...K) variáveis independentes e Xk ∼ N(µk,σk) Então, ΣXk ∼ N(Σµk,√ Σσ2k) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 49/68 Distribuição Qui-quadrado: X ~ χ2(n) f ( x) = e − x n −1 2x2 n n 2 2 Γ( ) 2 em que n > 0, x > 0 e +∞ Γ(n ) = ∫ e − x x n −1dx 0 (n designa-se por número de graus de liberdade) E(X)= n e V(X)=2n Aditividade da distribuição Qui-Quadrado Sejam Xk (k=1...K) variáveis independentes e 2 χ Xk ∼ ( n k ) 2 χ Então, ΣXk ∼ (Σn k ) Transformação de v.a. X ∼ N(µ,σ) Se a v.a. X ~ N(0,1) então X2 ~ χ2(1) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 50/68 Distribuição t-student: X ~ t(n) n +1 ) 2 − n+1 2 (1 + x ) 2 n n nπΓ( ) 2 Γ( f (x) = x∈R (n designa-se por número de graus de liberdade) E(X) = 0 (para n > 1) e V(X) = n/(n-2) (para n > 2) Nota: Quando n→ ∞ a f.d.p. da t-student tende para a f.d.p. da N(0,1) Transformação de v.a. X ~ N(0,1) e Y ∼ χ2(n) Se a v.a. X ~ N(0,1) e Y ∼ χ2(n) então X Y ~ t(n) n Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 51/68 Distribuição F-Snedcor: X ~ F(m,n) n+m m/2 ) ( m−2) / 2 m x 2 f (x) = m n n m ( m+ n ) / 2 Γ ( )Γ ( ) 1 + x 2 2 n Γ( em que n,m > 0, x > 0 e 2 n 2 ( m + n − 2) E(X)= n/(n-2) e V(X)= m(n − 2) 2 (n − 4) se n>4 Transformação de v.a. X ∼ F(m,n) Se X ~ F(m,n) então 1/X ~ F(n,m) Nota: Em consequência, o percentil de ordem k de uma variável com distribuição F(m,n) é igual ao percentil de ordem 1-k de uma variável com distribuição F(n,m). Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 52/68 Transformação de v.a. X ∼ χ2(m) e Y ∼ χ2(n) X Se X ∼ χ 2 (m) eY∼χ 2 (n) então Y m n ~ F(m,n) Transformação de v.a. X ∼ t(n) Se X ~ t(n) então X2 ~ F(1,n) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 53/68 4 Amostragem e Distribuições Amostrais 4.1 Qualidades de uma Amostra Uma Amostra deve ser − Adequada − Representativa A dimensão da Amostra (n) está, em geral, directamente relacionado com as qualidades da amostra. Erros na Amostra: − Erros de amostragem − Outros erros na recolha de dados (ex: na condução de inquérito ou no processamento dos dados) 4.2 Tipos de Amostragem Amostragem Aleatória (ou Probabilística ou Casual) permite determinar a probabilidade de inclusão de cada elemento na amostra Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 54/68 Simples Sistemática Estratificada Por grupos Por áreas Multi-fásica … Amostragem Não Aleatória Por conveniência Segundo juízo Por quotas .... 4.3 Amostra aleatória Xk (k=1...n) v.a. independentes e idênticamente distribuídas (i.i.d.), todas com a mesma distribuição da população X a que se referem, constituem uma amostra aleatória, ou casual, dessa população. Nota: A amostragem aleatória corresponde a extracções com reposição, a menos que se considere a população muito grande quando comparada com a dimensão da amostra; caso contrário não se verificaria Xk i.i.d. i.e. f X1X 2 ...X n ( x x , x 2 ..., x n ) = f X 1 ( x 1 )f X 2 ( x 2 )...f X n ( x n ) e f X 1 ( x ) = f X 2 ( x ) = ... = f X n ( x ) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 55/68 4.4 Estatísticas e Parâmetros das Distribuições Teóricas Uma Estatística é uma v.a. que é função de uma amostra aleatória (X1,...,Xn) e que não envolve qualquer parâmetro desconhecido. As Estatísticas têm um particular interesse para o estudo da Estatística Indutiva que se dedica a procurar transpôr resultados para a população X (inferir), partindo de características amostrais. Em particular, estas características deverão permitir fazer inferência sobre parâmetros desconhecidos, associados à distribuição da população X. Note-se que algumas Estatísticas são especialmente usadas para estimar ou para validar valores de certos parâmetros, como se apresenta no quadro seguinte. No entanto, só a partir do conhecimento da distribuição das Estatísticas amostrais (distribuições ditas amostrais ou por amostragem), se pode concluir sobre o bom comportamento de uma estatística na população das amostras que justifica a sua escolha para a estimação de um certo parâmetro. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 Média 56/68 Na Amostra/ Na População/ Estatísticas Parâmetros n E[X] ∑ Xi X= Variância i =1 V[X] n S2 = Desvio Padrão √V[X] n 2 ( X − X ) ∑ i i =1 n S Analisar o bom comportamento de uma estatística na população das amostras é precisamente o que se pretende ao apresentar os resultados seguintes. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 57/68 4.5 Lei dos grandes números Considerando uma sucessão de v.a. i.i.d. { Xk}, com média E[Xk]=µ e variância V[Xk]= σ2 (e correspondente sucessão de f.d. {FXk(x)}, e n Sn = ∑ X k k =1 tem-se que Sn/n converge em probabilidade para µ, i.e. Sn lim P − µ < ε = 1 n → +∞ n Esta lei deriva-se facilmente a partir da desigualdade de Chebyshev, referida a uma v.a. X com E[X]=µ e variância finita V[X]= σ2: σ2 P[ X − µ ≥ ε ] ≤ 2 ε Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 58/68 4.6 Teorema do limite central Considerando uma sucessão de v.a. i.i.d. { Xk}, com média E[Xk]=µ e variância (finita) V[Xk]= σ2, tem-se S n − nµ . σ n ~ N(0, 1) em que n Sn = ∑ X k k =1 ou X −µ . σ / n ~ N(0, 1) . Nota 1: ~ assinala a convergência para a distribuição normal i.e. S n − nµ lim P ≤ x = Φ (x ) n →∞ σ n Nota 2: Note-se que (X1,…Xn) assim definidos constituem uma amostra aleatória Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 59/68 4.7 Distribuições amostrais Os resultados seguintes referem-se à amostragem aleatória de populações infinitas. A este propósito convém notar que se a população, apesar de finita, fôr comparada com a amostra, o erro cometido ao considerá-la infinita pode ser desprezível. Amostragem de Populações Normais X ∼ N(µX,σX) X1…Xn, resultantes de amostragem aleatória simples (Xi iid). Se Xi ∼ N(µ,σ) então X −µ σ / n ~ N(0,1) atendendo à propriedade da aditividade da Normal. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 60/68 Amostragem de populações não normais A determinação da distribuição da soma (ou da média) referida a populações não normais faz-se mediante recurso ao Teorema do Limite Central. Nos casos de aproximação de distribuições discretas à distribuição (contínua) Normal é conveniente proceder a uma “correcção de continuidade” representando um inteiro k pelo intervalo (k-0,5;k+0,5). Sendo assim considera-se: P(X=k) ≈ P(k-0,5 ≤ X ≤ k+0,5) P(a ≤ X ≤ b) ≈ P(a-0,5 ≤ X ≤ b+0,5) P(a < X < b) ≈ P(a+0,5 ≤ X ≤ b-0,5) Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 61/68 População Bernoulli X ~ B(1,p) X1…Xn, amostra aleatória (i. e i.d. com X) S n − np . np(1 − p) ~ N(0,1) atendendo à propriedade da aditividade da Bernoulli (Binomial B(1,p)). Notas: − Neste caso Sn é uma variável aleatória B(n,p) − n >20, np > 5 e n(1-p) > 5 é uma regra empírica para considerar aceitável uma aproximação de Sn à Normal2 Pode ser aplicada para uma aproximação da Binomial à Normal, eventualmente facilitando cálculos. 2 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 62/68 População Poisson X ~ P(λ) X1…Xn, amostra aleatória (i. e i.d. com X) S n − nλ nλ . ~ N(0,1) atendendo à propriedade da aditividade da Poisson. Notas: − Neste caso Sn é uma variável aleatória P(nλ) − Uma regra empírica para considerar aceitável uma aproximação de Sn à Normal3 é ter nλ > 20 3 Pode ser aplicada para uma aproximação à Normal de uma Poisson com parâmetro >20, eventualmente facilitando cálculos. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 63/68 População Qui-Quadrado Se X ~ χ2(1) e X1…Xn, amostra aleatória (i. e i.d. com X) então Sn − n . 2n ~ N(0,1) atendendo à propriedade da aditividade do QuiQuadrado. Notas: − Neste caso Sn é uma variável aleatória χ2(n) − n >20 é uma regra empírica para considerar aceitável uma aproximação à Normal4 Pode ser aplicada para uma aproximação à Normal de uma Qui-Quadrado com parâmetro >20, eventualmente facilitando cálculos. 4 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 64/68 Nota Final Na disciplina de Estatística I foi possível abordar: − A Estatística Descritiva que se detém sobre os valores observados de uma amostra − A Teoria das Probabilidades, em particular o conceito de Variável Aleatória e algumas das suas possíveis Distribuições teóricas. − As Distribuições (de Estatísticas) amostrais. Na sequência do estudo realizado acerca da amostragem e distribuições amostrais será possível, futuramente, apresentar o processo de Inferência Estatística ou Estatística Indutiva, matéria de Estatística II. Pressupondo, então, a constituição de uma amostra aleatória, a Inferência Estatística permitirá, a partir de resultados observados na amostra e da consideração de modelos distribucionais, quantificar a incerteza que se associa à transposição de resultados para a população em geral. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 65/68 Por fim note-se que nem sempre é possível derivar teoricamente certas distribuições amostrais (por exemplo, no caso de amostras pequenas e/ou de estatísticas que sejam funções complexas das v.a. consideradas). Neste caso, a geração de amostras recorrendo à técnica de Monte Carlo permite derivar distribuições amostrais empíricas que podem adicionar algum conhecimento àquele que se deriva, simplesmente, de uma amostra observada. Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 66/68 Índice INTRODUÇÃO .......................................................................................................................................... 2 OBJECTIVOS PRINCIPAIS DA ESTATÍSTICA...................................................................................................... 2 NOTA SOBRE O SPSS..................................................................................................................................... 2 1 ESTATÍSTICA DESCRITIVA ............................................................................................................ 3 1.1 CONCEITOS BÁSICOS .......................................................................................................................... 3 AMOSTRA OBSERVADA ................................................................................................................................. 4 1.2 MEDIDAS DE LOCALIZAÇÃO............................................................................................................... 6 DADOS NOMINAIS ......................................................................................................................................... 6 DADOS ORDINAIS .......................................................................................................................................... 6 DADOS INTERVALARES E DE RAZÃO .............................................................................................................. 7 1.3 MEDIDAS DE DISPERSÃO ..................................................................................................................... 7 DADOS ORDINAIS .......................................................................................................................................... 7 DADOS INTERVALARES E DE RAZÃO .............................................................................................................. 8 1.4 ALGUMAS REPRESENTAÇÕES TABULARES E GRÁFICAS ..................................................................... 9 DADOS NOMINAIS E ORDINAIS ....................................................................................................................... 9 DADOS INTERVALARES E DE RAZÃO ............................................................................................................ 11 1.5 MAIS SOBRE MEDIDAS DESCRITIVAS ............................................................................................... 13 AMOSTRA COM OBSERVAÇÕES REPETIDAS .................................................................................................. 13 AMOSTRA COM OBSERVAÇÕES CLASSIFICADAS ........................................................................................... 14 TRANSFORMAÇÕES DE ORIGEM E ESCALA ................................................................................................... 15 1.6 ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS ............................................................................................. 16 REPRESENTAÇÕES GRÁFICAS E TABULARES................................................................................................. 16 MEDIDAS DE ASSOCIAÇÃO .......................................................................................................................... 20 1.7 REGRESSÃO LINEAR SIMPLES .......................................................................................................... 22 2 TEORIA DAS PROBABILIDADES.................................................................................................. 24 2.1 EXPERIÊNCIA ALEATÓRIA E ACONTECIMENTOS .............................................................................. 24 2.2 CONCEITO DE PROBABILIDADE ........................................................................................................ 25 2.3 TEOREMAS FUNDAMENTAIS ............................................................................................................. 26 PROBABILIDADES DE ACONTECIMENTOS ..................................................................................................... 26 PROBABILIDADE CONDICIONADA ................................................................................................................ 27 PROBABILIDADES COMPOSTAS .................................................................................................................... 27 INDEPENDÊNCIA DE ACONTECIMENTOS ....................................................................................................... 27 PROBABILIDADE TOTAL .............................................................................................................................. 29 TEOREMA DE BAYES ................................................................................................................................... 29 3 3.1 3.2 VARIÁVEIS ALEATÓRIAS ............................................................................................................. 30 CONCEITO DE VARIÁVEL ALEATÓRIA (V.A.) .................................................................................... 30 FUNÇÃO DE DISTRIBUIÇÃO DE V.A. X (F.D.)...................................................................................... 30 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 67/68 3.3 FUNÇÃO DE DISTRIBUIÇÃO DE VECTOR ALEATÓRIO BIDIMENSIONAL OU PAR ALEATÓRIO (X,Y)... 32 3.4 VARIÁVEIS ALEATÓRIAS DISCRETAS ................................................................................................ 33 FUNÇÃO (MASSA) DE PROBABILIDADE (F.P.) DE V.A. X ................................................................................ 33 MÉDIA OU VALOR ESPERADO DA V.A. X...................................................................................................... 34 VARIÂNCIA DA V.A. X................................................................................................................................. 34 DESVIO PADRÃO DA V.A. X ......................................................................................................................... 34 PERCENTIL DE ORDEM K (0 < K < 1) DA V.A. X............................................................................................. 34 3.5 PAR ALEATÓRIO DISCRETO .............................................................................................................. 35 FUNÇÃO (MASSA) DE PROBABILIDADE CONJUNTA DE (X,Y)......................................................................... 35 FUNÇÕES DE PROBABILIDADE MARGINAL .................................................................................................... 36 INDEPENDÊNCIA DE DUAS V.A. X E Y .......................................................................................................... 36 COVARIÂNCIA DE DUAS V.A. X E Y ............................................................................................................. 36 3.6 ALGUMAS DISTRIBUIÇÕES DE V.A. DISCRETAS ................................................................................. 37 DISTRIBUIÇÃO UNIFORME (DISCRETA): X ∼ U(1/N) .................................................................................... 37 DISTRIBUIÇÃO BERNOULLI: X ∼ B(1,P) ....................................................................................................... 38 DISTRIBUIÇÃO BINOMIAL: X ∼ B(N,P) ......................................................................................................... 39 DISTRIBUIÇÃO DE POISSON: X ∼ P(λ) .......................................................................................................... 40 3.7 VARIÁVEIS ALEATÓRIAS CONTÍNUAS ............................................................................................... 42 FUNÇÃO DENSIDADE DE PROBABILIDADE (F.D.P.) DE V.A. X ........................................................................ 42 MÉDIA OU VALOR ESPERADO DA V.A. X...................................................................................................... 42 PERCENTIL DE ORDEM K (0 < K < 1) DA V.A. X............................................................................................. 43 3.8 PAR ALEATÓRIO CONTÍNUO ............................................................................................................. 44 FUNÇÃO DENSIDADE DE PROBABILIDADE CONJUNTA DE (X,Y) .................................................................... 44 FUNÇÕES DENSIDADE DE PROBABILIDADE MARGINAIS ................................................................................ 45 INDEPENDÊNCIA DE DUAS V.A. X E Y .......................................................................................................... 45 COVARIÂNCIA DE DUAS V.A. X E Y ............................................................................................................. 45 3.9 ALGUMAS DISTRIBUIÇÕES DE V.A. CONTÍNUAS ................................................................................ 46 DISTRIBUIÇÃO UNIFORME: X ∼ U[A,B]........................................................................................................ 46 DISTRIBUIÇÃO NORMAL: X ∼ N(µ,σ) .......................................................................................................... 47 DISTRIBUIÇÃO QUI-QUADRADO: X ~ χ2(N) .................................................................................................... 49 DISTRIBUIÇÃO T-STUDENT: X ~ T(N) ............................................................................................................. 50 DISTRIBUIÇÃO F-SNEDCOR: X ~ F(M,N).......................................................................................................... 51 4 AMOSTRAGEM E DISTRIBUIÇÕES AMOSTRAIS ..................................................................... 53 4.1 QUALIDADES DE UMA AMOSTRA ...................................................................................................... 53 4.2 TIPOS DE AMOSTRAGEM .................................................................................................................. 53 AMOSTRAGEM ALEATÓRIA (OU PROBABILÍSTICA OU CASUAL) ................................................................... 53 AMOSTRAGEM NÃO ALEATÓRIA ................................................................................................................. 54 4.3 AMOSTRA ALEATÓRIA ...................................................................................................................... 54 4.4 ESTATÍSTICAS E PARÂMETROS DAS DISTRIBUIÇÕES TEÓRICAS ...................................................... 55 4.5 LEI DOS GRANDES NÚMEROS ............................................................................................................ 57 4.6 TEOREMA DO LIMITE CENTRAL ....................................................................................................... 58 4.7 DISTRIBUIÇÕES AMOSTRAIS ............................................................................................................. 59 AMOSTRAGEM DE POPULAÇÕES NORMAIS .................................................................................................. 59 AMOSTRAGEM DE POPULAÇÕES NÃO NORMAIS ........................................................................................... 60 NOTA FINAL .......................................................................................................................................... 64 Tópicos de Estatística I Margarida Cardoso ISCTE 2009-10 Tópicos de Estatística I 68/68 Margarida Cardoso