TÉCNICAS DE ANÁLISE DE DADOS PTR5802 Técnicas de Análise de Dados Aplicadas à Engenharia de Transportes 2o. PERÍODO DE 2009 RESPONSÁVEIS: Prof. José Alberto Quintanilha Prof. Hugo Pietrantonio TÉCNICAS DE ANÁLISE DE DADOS • INTRODUÇÃO • REVISÃO – VARIÁVEIS ALEATÓRIAS – DISTRIBUIÇÕES DE PROBABILIDADE USUAIS – ESTIMAÇÃO E TESTES DE HIPÓTESES – AMOSTRAGEM – CORRELAÇÃO – REGRESSÃO BIVARIADA TÉCNICAS DE ANÁLISE DE DADOS • INTRODUÇÃO – Objetivos da disciplina – Programa da disciplina – Listas – Provas – Software – Bibliografia • Artigos • seminários – Avaliação TÉCNICAS DE ANÁLISE DE DADOS - revisão • TIPOS DE VARIÁVEIS – QUALITATIVAS • ORDINAIS • NOMINAIS – QUANTITATIVAS • DISCRETAS • CONTÍNUAS III – Tipos de variáveis geradoras de dados (Clóvis de Araújo Peres/SINAPE2006) Categóricas Numéricas Nominal Ordinal (classificação) (classificação) sexo, raça, região, grupo sangüíneo pressão sangüínea (baixa, normal, alta) Discreta Contínua (contagem) (mensuração) Número de acidentes, número de filhos Peso, altura, pressão sangüínea VARIÁVEIS QUANTITATI- QUALITATI- VAS VAS Nominal Ordinal (s/ordem) (c/ordem) Sexo sim/não Tem/não tem Grau instrução Opinião pública Pequeno/ médio/gran Discreta Contínua (contagem) (mensuração) # de acidentes, fluxo veicular, Peso, altura, preço # de defeitos por TÉCNICAS DE ANÁLISE DE DADOS - revisão • VARIÁVEIS ALEATÓRIAS – INDEPENDENTES x MUTUAMENTE EXCLUSIVAS TÉCNICAS DE ANÁLISE DE DADOS - revisão • DISTRIBUIÇÕES DE PROBABILIDADE USUAIS – – – – Normal Binomial Poisson Exponencial – CONJUNTAS – CONDICIONAIS Conceitos: • Espaço Amostral: Conjunto de todos os resultados, inteiros não-negativos, possíveis do experimento; • Variável Aleatória: É uma função numericamente e definida no espaço amostral; • Histograma: avaliada É um dos tipos de gráficos mais utilizados para representar as frequências de uma variável aleatória; Conceitos: • Distribuições de Probabilidade: Modelo Estatístico da ocorrência de valores (aleatórios) de um certo evento; - Discretas: A Função Distribuição Cumulativa Discreta é obtida pelas variáveis aleatórias discretas, que são aquelas que assumem um conjunto de valores finito ou infinito contável; - Contínuas: A Função Distribuição Cumulativa Contínua é obtida pelas variáveis aleatórias contínuas, que são aquelas que assumem uma série contínua de valores; Principais Distribuições Aplicadas aos Transportes Principais Distribuições Aplicadas aos Transportes Distribuições Discretas Poisson Geométrica Distribuições Contínuas Normal Beta Exponencial Erlang Gama TÉCNICAS DE ANÁLISE DE DADOS - revisão • Binomial • Binomial negativa • Geométrica • Hipergeométrica • Normal TÉCNICAS DE ANÁLISE DE DADOS - revisão • DISTRIBUIÇÃO BINOMIAL Definição Considere p a probabilidade de um evento ocorrer em uma tentativa única (probabilidade de sucesso) e q = 1p a de que o evento não ocorra em qualquer tentativa única (probabilidade insucesso), então a probabilidade do evento acontecer exatamente x vezes, em n tentativas (x sucessos e n-x insucessos) é definida por: n x n x P(x) p q x DISTRIBUIÇÃO BINOMIAL NEGATIVA • Para apresentar a distribuição binomial negativa, faremos uma análise do que foi apresentado na distribuição binomial. – O ponto de partida é o processo de Bernoulli, definido como o experimento aleatório cujo espaço amostral tem apenas dois possíveis resultados mutuamente excludentes denominados sucesso e falha, sendo a probabilidade de sucesso. – Se o processo Bernoulli for repetido n vezes, considerando que as experiências são independentes, então a variável aleatória X que define o número de sucessos do experimento terá distribuição binomial. Observe que, na distribuição binomial, o número de experimentos n é definido antecipadamente. • Em vez de repetir o experimento um número determinado de vezes, pode-se estabelecer que o experimento seja repetido até conseguir o primeiro resultado sucesso. Nesse caso, a variável aleatória X que define o número de experimentos necessários até conseguir o primeiro resultado sucesso tem uma distribuição geométrica. • Ampliando as premissas da distribuição geométrica, em vez de repetir o experimento até conseguir o primeiro resultado sucesso, a distribuição binomial negativa, conhecida também como Distribuição de Pascal, permite determinar a probabilidade de que será necessário realizar exatamente n experimentos para obter x resultados de sucesso com probabilidade . DISTRIBUIÇÃO HIPERGEOMÉTRICA • A distribuição hipergeométrica não é derivada da distribuição binomial, pois os experimentos são dependentes. • Numa população composta de N objetos que podem ser classificados em duas categorias, C1 e C2, de forma que na população há N1 em C1 e N2 em C2, desejamos retirar uma amostra sem reposição de n objetos dessa população, selecionando x objetos de C1 e (n-x) objetos de C2. TÉCNICAS DE ANÁLISE DE DADOS - revisão TÉCNICAS DE ANÁLISE DE DADOS - revisão • Normal padrão: xi - média dos x’s zi = ------------------------------desvio padrão dos x’s Onde xi~N(média, d.p.) e zi ~N(0,1) TÉCNICAS DE ANÁLISE DE DADOS - revisão • Poisson • Exponencial • Gama • Erlang TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições Discretas • Distribuição de Poisson: n Pn = Probabilidade: e - n = 0, 1, 2 ... >0 n! E(X) = e Var X = Aplicação: Esta distribuição é frequentemente usada para análise do número de chegadas de clientes num tempo fixado, demanda de um determinado produto etc. TÉCNICAS DE ANÁLISE DE DADOS - revisão Número de Dias Observados Distribuição de Poisson: 80 70 60 50 40 Observada 30 20 10 0 1 Fonte: Novaes (1975) 2 3 4 5 6 7 Número de Návios 8 9 10 TÉCNICAS DE ANÁLISE DE DADOS - revisão Número de Dias Observados Distribuição de Poisson: Teórica (Poisson) 80 70 60 50 40 Observada 30 20 10 0 1 Fonte: Novaes (1975) 2 3 4 5 6 7 Número de Návios 8 9 10 TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições Contínuas • Distribuição Exponencial: Função Densidade de Probabilidade: f (x) = e -x E(X) = 1 / x 0 com e e >0 Var X = 1 / 2 Aplicação: Esta distribuição é usada para análide do tempo entre a chegada de clientes, o tempo de duração de conversas telefônicas e o tempo de vida de componentes eletrônicos. TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuição Exponencial Freqüência (no de Navios Observados) 500 400 300 472 200 261 100 194 115 95 49 0 Fonte: Novaes (1975) 1000 2000 41 3000 17 17 4000 14 19 5000 Quantidade de Carga por Navio (ton) TÉCNICAS DE ANÁLISE DE DADOS - revisão Freqüência (no de Navios Observados) Distribuição Exponencial 500 400 Teórica (Exponencial) 300 472 200 261 100 194 115 95 49 41 0 Fonte: Novaes (1975) 1000 2000 3000 17 17 14 19 4000 5000 Quantidade de Carga por Navio (ton) TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições Contínuas • Distribuição Gama: Função Densidade de Probabilidade: r r-1 -x x e f(x) = (r) com x > 0, r > 0 e > 0 E(X) = r / e Var X = r / 2 Aplicação: Esta distribuição é útil como uma representção matemática de fenômenos físicos ou para análide do tempo total para servir n clientes (independentes), lembrando que para o tempo de serviço para um cliente individualmente seja uma distribuição exponencial. TÉCNICAS DE ANÁLISE DE DADOS - revisão 2,0 Distribuições Gama r 1,6 1 8,3 2 7,5 3,75 f(x) 1,2 1 0,8 0,4 0 2 0 4 6 8 10 12 x Funções densidade de probabilidade Gama para valores selecionados Fonte: Montgomery (2003) TÉCNICAS DE ANÁLISE DE DADOS - revisão • Distribuição Erlang: Função Densidade de Probabilidade: r r-1 -x x e f(x) = com x > 0, r = 1, 2, 3 ... (r - 1) ! E(X) = r / e Var X = r / 2 Aplicação: A análise de chegadas por esta distribuição, engloba o tempo de atendimento e tempo em fila, Morse (1967). Para r = 1 tem-se uma dist. Exp. E o processo de chegada é Poissoniano. Para r , chega-se a situação determinística. : TÉCNICAS DE ANÁLISE DE DADOS - revisão Distribuições de Erlang 2,0 1,6 1 1 5 1 5 2 f(x) 1,2 r 0,8 0,4 0 2 0 4 6 8 10 12 x Funções densidade de probabilidade de Erlang para valores selecionados Fonte: Montgomery (2003) TÉCNICAS DE ANÁLISE DE DADOS - revisão • Probabilidade condicional: P(X e wi) p(X|wi) = -------------------P(wi) TÉCNICAS DE ANÁLISE DE DADOS - revisão • ESTIMAÇÃO E TESTES DE HIPÓTESES – Estimadores pontuais e por intervalos – Comparação entre médias • Pareado • Independentes TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimadores pontuais e por intervalos TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimação da média Objetivo Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Vamos observar n elementos, extraídos ao acaso da população; • Para cada elemento selecionado, observamos o valor da variável X de interesse. • Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X1, X2, ..., Xn. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador pontual µ para é dado por: X1 + X2+ ...+ Xn n Xbarra = -------------------------- = ∑ Xi n i=1 TÉCNICAS DE ANÁLISE DE DADOS - revisão • TEOREMA CENTRAL DO LIMITE Seja X uma v. a. que tem média µ e variância σ2. Para amostras X1, X2, ..., Xn, retiradas ao acaso e com reposição de X, a distribuição de probabilidade da média amostral aproxima-se, para n grande, de uma distribuição normal, com média µ e variância σ2 / n , ou seja, Xbarra ~ N(µ; σ2 / n ) TÉCNICAS DE ANÁLISE DE DADOS - revisão • Comentário: Se a distribuição de X é normal, então Xbarra tem distribuição normal . O desvio padrão √(σ2 / n) = (σ /√ n) é denominado erro padrão da média. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador intervalar ou intervalo de confiança para µ tem a forma: [Xbarra – є; Xbarra + є] sendo є o erro amostral (margem de erro) calculado a partir da distribuição de probabilidade de Xbarra. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Seja P(є) = γ, a probabilidade do intervalo: [µ – є; µ + є] conter a média amostral Xbarra numa distância de, no máximo є, da média populacional µ (desconhecida), ou seja, γ=P(| Xbarra - µ |<ou= є)=P(µ – є< Xbarra<µ + є) TÉCNICAS DE ANÁLISE DE DADOS - revisão γ=P(| Xbarra - µ |<ou= є)=P(µ – є< Xbarra<µ + є) = P[– є/(σ /√ n) < (Xbarra-µ)/(σ /√ n) < є/(σ /√ n)] = P[– є/(σ /√ n) < Z < є/(σ /√ n)] sendo Z ~ N(0,1) TÉCNICAS DE ANÁLISE DE DADOS - revisão Fazendo z= є/(σ /√ n): γ =P(-z< Z<z), γ é o coeficiente de confiança. TÉCNICAS DE ANÁLISE DE DADOS - revisão • O intervalo de confiança para a estimativa intervalar da média µ, com coeficiente de confiança γ, é dado por: [Xbarra – z(σ /√ n); Xbarra + z(σ /√ n)]. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimação para a proporção populacional p Estimar uma proporção p (desconhecida) de elementos em uma população, apresentando certa característica de interesse, a partir da informação fornecida por uma amostra. TÉCNICAS DE ANÁLISE DE DADOS - revisão • A partir de n elementos, extraídos ao acaso e com reposição da população, verificamos, para cada elemento selecionado, a presença (sucesso) ou não (fracasso) da característica de interesse. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador pontual p, também denominado proporção amostral para é dado por: Pchapéu= X/n X = no. de elementos na amostra que apresentam a característica; n = o tamanho da amostra coletada. TÉCNICAS DE ANÁLISE DE DADOS - revisão • A estimativa intervalar corresponde a um intervalo determinado da seguinte maneira: [Pchapéu – є; Pchapéu + є] sendo є o erro amostral ou margem de erro. TÉCNICAS DE ANÁLISE DE DADOS - revisão Neste caso: P(є)= γ =P (| Pchapéu - P |<ou= є é o coeficiente de confiança. Como X ~ b(n,p) temos que, para n grande, a variável aleatória X-np Z = ---------√ np(1-p) tem distribuição N(0,1) e, Є = z[√p(1-p)/n] e n= (z/ є)2[p(1-p)] TÉCNICAS DE ANÁLISE DE DADOS - revisão • Comparação entre médias • 1. Se um conjunto de medidas(amostra) faz parte de uma população. • 1.1 Desvio padrão da população conhecido(teste –z) • 1.2 Desvio padrão da população desconhecido(teste-t) 2. Se duas amostras são iguais (teste –t) • 2.1 Comparação entre itens pareados • 2.2 Amostras independentes • Para os casos acima: H0: <m1> =<m2> • H1: <m1> <m2> • Veremos depois como podemos verificar se uma média é maior do que a outra. Estes testes são chamados de testes direcionais ou testes uni-caudais. TÉCNICAS DE ANÁLISE DE DADOS - revisão Método 1 Usando o limite de confiabilidade Passo zero: Enunciar as hipóteses: H0: m1= m H1 ( alternativa: ) m1 m Primeiro passo: Identificar o tipo de teste • • Desvio padrão conhecido : teste z Igualdade de médias: teste não direcional Segundo passo estimar o erro aceitável do tipo I ( alfa) ou nível de significância. É usual escolher alfa=0,05.Se possível determinar beta( probabilidade de erro do tipo 2) e Terceiro passo: coletar os dados ( n observações) TÉCNICAS DE ANÁLISE DE DADOS - revisão Método 1 Usando o limite de confiabilidade Quarto Passo . Calcular o erro padrão (Serro) ATENÇÃO! USAR O DESVIO PADRÃO DA POPULAÇÃO: serro = n Quinto passo. Calcular os limites de confiabilidade para a média, usando o valor de z ( z crítico) obtido a partir do valor de alfa escolhido : inv.normp(alfa/2) do excel. M+= <m1> + z * Serro e M- = <m1>- z* Serro Sexto passo. Verificar se a média desejada está dentro dos limites calculados. Se estiver, aceita-se (não podemos rejeitar H0) H0 m1 =m Se não estiver, rejeitamos H0 e aceitamos H1 m1 m Sétimo passo: fazer recomendações...( rejeitar lote, fazer mais medidas, aceitar lote, trocar fornecedor, trocar equipamento....) Exemplo: O diâmetro de uma peça após a nitretação deve ser de 0,2540 cm com desvio padrão de 0,0001cm. Verifica-se que a média dos diâmetros de uma amostra com 10 itens é 0,2545 cm. A amostra atende a especificação? 0 Passo zero: H0: m1= m 0,2545 = 0,2540 H1 ( alternativa: ) 0,2545 0,2540 1. Primeiro passo: Identificar o tipo de teste a. Desvio padrão conhecido : teste z b. Igualdade de médias: teste não direcional 2. Segundo passo estimar o erro aceitável do tipo I ( alfa) ou nível de significância. alfa=0,05. 3. Terceiro passo: dados (10 observações com m1= 0,2545 cm) Exemplo cont. 4. Quarto Passo . : serro = 0,0001 = 3,16228 10-5 n 10 5. Quinto passo Calcular os limites de confiabilidade para a média, z= 1,96 M+= 0,2545 + 1,96 x Serro e M- = 0,2545- 1,96x Serro 0s limites são : 0,254438 cm e 0,254562 cm. 6. Sexto passo A média desejada (0,2540 cm) não está dentro dos limites. Rejeitamos H0 e aceitamos H1 m1 m 7. Sétimo passo: fazer recomendações...( rejeitar lote) TÉCNICAS DE ANÁLISE DE DADOS - revisão Método 2: usando o valor de z Até o quarto passo os métodos são idênticos. Quinto passo Calcular o valor de z (z calculado) Sexto passo Verificar se o valor de z calculado é maior, em módulo, do que o valor de z crítico obtido de inv.normp(alfa). Se for maior, significa que as diferenças são muito grandes e rejeita-se H0 m1 =m e aceitamos H1 m1 m Se for menor, significa que as diferenças são pequenas e devemos aceitar H0 (Não foi possível rejeitar H0) Sétimo passo: fazer recomendações...( rejeitar lote, fazer mais medidas, aceitar lote, trocar fornecedor, trocar equipamento....) TÉCNICAS DE ANÁLISE DE DADOS - revisão Erros na conclusão TIPO I: Rejeitamos a hipótese nula sendo ela verdadeira () é chamado de nível de significância do teste. TIPO II : Não rejeitamos a hipótese nula sendo ela falsa ( ) Poder : 1- TÉCNICAS DE ANÁLISE DE DADOS - revisão TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM – Obter parte das informações e efetuar inferências – “processo pelo qual inferências são feitas examinando-se apenas uma parte do todo” – vantagens: custo, rapidez, exatidão, amplitude de informações TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM: principais fases – Objetivo do levantamento – população alvo e população a ser amostrada – determinação da precisão desejada TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM: terminologia – Unidade amostral (ou elementar) – Universo ou população – Variável aleatória – Amostra TÉCNICAS DE ANÁLISE DE DADOS - revisão • Levantamentos censitários são levantamentos cujo resultado (o censo) visa conhecer a totalidade da(s) característica(s) individuais de cada população. • Já os levantamentos amostrais tem como resultado, amostras, definidas como “subconjunto de uma população, por meio do qual se estabelecem ou estima as propriedades e características dessa população” (Bolfarine e Bussab, 2005). É o processo pelo qual inferências são feitas examinando-se apenas uma parte do todo. Tem como algumas vantagens, um menor custo, uma maior rapidez, permite o levantamento de uma amplitude maior de informações com uma exatidão pré-estabelecida. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Sucintamente, as principais fases de um levantamento amostral são: – a definição do objetivo do levantamento; – a definição da população alvo a ser estudada e da população efetivamente a ser amostrada; – a determinação da exatidão desejada (ou possível). TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM: técnicas – – – – casual simples (com e sem reposição) sistemática aleatória estratificada por conglomerados TÉCNICAS DE ANÁLISE DE DADOS - revisão • AMOSTRAGEM: Plano amostral – dimensionamento da amostra: a partir de z= є/(σ /√ n), temos: є= zσ /√ n. O tamanho n da amostra pode então ser determinado por: n = (z/e)2σ2 AMOSTRAGEM • Esquemas de amostragem espacial CASUAL SIMPLES SISTEMÁTICA ESTRATIFICADA ALEATÓRIA ESTRATIFICADA SISTEMÁTICA CONGLOMERADOS ALEATÓRIA TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – observação = previsível + aleatória – aleatória obedece algum modelo de probabilidade – ferramenta: análise de variância TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – “identificar fatores, controláveis, que expliquem o fenômeno ou alterem a característica de interesse” – “identificar estruturas nos dados, permite conhecer melhor o fenômeno” TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – fator versus variável – níveis do fator (tratamento) – unidade experimental – fator fixo versus fator aleatório TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – experimentos com um fator fixo e k níveis: yij = μ + Ti + eij μ: média geral de todas as observações Ti: efeito do i-ésimo nível do fator T (cte.) eij: erro casual não observável – Hipótese H0: T1 = ..... = Tk = 0 TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS • F.V. gl SQ • entre k-1 SQE QME QME/QMR • dentro • Total n-k n-1 SQR QMR SQT QM F0 TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – Decisão: rejeita-se H0 se F0 > Fk-1, n-k, α TÉCNICAS DE ANÁLISE DE DADOS - revisão • PLANEJAMENTO DE EXPERIMENTOS – experimentos mais complexos (múltiplos fatores, fatores cruzados e hierárquicos, blocos) – comparações múltiplas TÉCNICAS DE ANÁLISE DE DADOS - revisão • FONTES: – wwwgen.fmrp.usp.br/rgm5837/2006/Bio_Aula_04_Distr_de_Probabilidade10112 – – – – – – – – 006.ppt www.ime.usp.br/~sandoval/mae5755/Estimacao_da_%20Proporcao.pdf www.ime.usp.br/~sandoval/mae5755/Inferencia%20estatistica.pdf http://www.ime.usp.br/~sandoval/mae5755/Estimacao_da_%20media.pdf Curso de Análise Estatística - SINAPE 2006 - Prof. Dr. Clóvis de Araújo Peres – [email protected] http://pcc5746.pcc.usp.br/Textos_Tecnicos/PCC%205746%20%20Amostragem%20estat%C3%ADstica.PDF http://www.materiais.ufsc.br/Disciplinas/metodosestatisticospg/2003/aulaz.ppt Edições anteriores da disciplina: material do docente e de alunos. Material sobre correlação e regressão: www.ime.usp.br/~clelia/MAE116_Biologia/Aula_DescritivaIII.ppt