Modelos de Simulação 1.1 INTRODUÇÃO Para fazer modelação em ambiente utilizam-se dois métodos, o estatístico e o dinâmico. O Método Estatístico, com equações matemáticas e conceitos de estatística, utiliza um programa de computador chamado modelo estatístico, que, através de uma correlação entre duas ou mais variáveis, modela ou prevê uma delas. A Estatística desempenha um papel cada vez mais importante em quase todos os campos do conhecimento. Se, tal como o seu nome indica, a Estatística começou por estar ligada aos negócios do Estado, a sua aplicação estende-se hoje a ramos tão diversos como a agricultura, a biologia, o comércio, a economia, as comunicações, a química e a física. O Método Dinâmico, com equações matemáticas e conceitos físicos, utiliza um programa chamado modelo dinâmico. Esse modelo, através de equações físicas, simula os movimentos dos fluidos para prever os acontecimentos futuros. O modelo não reproduz a realidade, limitando-se a representar, com alguma exactidão, vários fenómenos observados e a simular alguns processos físicos. As previsões são de grande importância para a tomada de decisões por parte dos órgãos legislativos e de decisão, em relação à agricultura e ao auxílio às populações. 1.2 MODELOS ESTATISTICOS 1.2.1 RECOLHA DE DADOS A abstenção situou-se em 42%. O que significa este número? Como foi obtido? O objectivo da estatística é fornecer informação sob a forma de números. A estatística consiste num método intelectual que visa obter conhecimento a partir dos números. Para conseguir este objectivo, a estatística trata os números em três formas: – Produção de dados: por observação directa do fenómeno que pretendemos estudar ou montando experiências que fornecem os dados. A qualidade dos dados obtidos determinará a qualidade das conclusões a que se chegam. – Organização e análise dos dados: conjunto de ferramentas gráficas e numéricas que exploram os dados disponíveis. O objectivo da análise 5º Ano Eng. Ambiente Cap 1 – Modelos de Simulação em Ambiente determina a estratégia e o tipo de análise a prosseguir. – Obtenção de conclusões sobre os dados (inferência estatística): utiliza os conceitos de probabilidade para estabelecer conclusões a partir dos dados e com suporte nas técnicas aplicadas. As conclusões são sempre acompanhadas por um valor da confiança. Variável aleatória (v.a.): os dados variam, sendo impossível prever, com precisão, o próximo valor que a variável tomará. No limite é possível associar uma maior ou menor probabilidade a determinado valor. São comandadas pelas leis do acaso e geram processos aleatórios ou estocásticos (processos aleatórios referenciados na var. tempo). Dada a variabilidade dos dados, todas as conclusões que se possam tirar têm um carácter incerto. O mérito da estatística é produzir dados e conclusões, cuja utilidade real não é destruída pela variabilidade e incerteza. É necessário um conjunto de observações que retractem alguma (s) variável (eis). No entanto, para compreendê-las não se precisa do conjunto de observações que traduzam o comportamento da variável durante todo o tempo e para todo o espaço. Não é necessária a população. Bastará uma parte destes dados, que irão constituir a amostra de dados, sobre a qual se irá desenvolver toda a análise estatística, quer gráfica, quer numérica. A monitorização de dados em ambiente A identificação, avaliação, tratamento e resolução de qualquer problema do ambiente requer uma base de informação, tanto mais completa quanto possível. A gestão dos recursos naturais, a poluição atmosférica, o dimensionamento de uma albufeira e o uso dos solos, são alguns exemplos de problemas ambientais que só poderão ser estudados dispondo de um conjunto de informação sobre variáveis relacionadas. De uma maneira geral, o estudo dos problemas ambientais implica, a recolha de dados. A recolha de dados pode ser realizada de duas maneiras distintas: a experimental e/ou a observacional. • abordagem experimental refere-se às situações em que se constrói um plano experimental em que a variável possa ser medida. • abordagem observacional tem que se conhecer que variáveis se pretende avaliar e fazer uma campanha de medições. No entanto, é necessário fazer um estudo antes da 6 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente campanha por forma a saber, de acordo com o objectivo que se tem para o estudo: que variáveis se vão medir, quantas amostras de água se vai colher, em que pontos do estuário se vão colher as amostras, com que frequência no tempo se vão colher as amostras, a que profundidades se vão colher as amostras de água. É necessário estabelecer um plano de monitorização para realizar determinado estudo. A monitorização de dados dos sistemas ambientais permite-nos avaliar as concentrações ambientes nesses sistemas (ar, água, solos) ou as emissões dos efluentes líquidos, gasosos, ou outros. espaços podem afectar os testes estatísticos e podem conduzir a resultados errados. Deve, ainda ter-se especial atenção para: dados perto ou abaixo dos limites de detecção dos aparelhos usados; valores suspeitos e/ou faltosos; relações causa-efeito complicadas; necessidade de medir mais do que uma variável simultaneamente. 1.2.2 AMOSTRAGEM DE POPULAÇÕES AMBIENTAIS A amostragem é o processo de seleccionar elementos representativos de uma população. Assumese que, a análise sobre estes elementos fornece informação sobre a população. Note-se que muitos procedimentos estatísticos foram desenvolvidos para conjuntos de dados que se presumia terem sido extraídos de uma população com distribuição normal. Muitos conjuntos de dados são frequentemente assimétricos e alongados para a direita e, por isso, a validade dos procedimentos clássicos são postos em causa. 1.2.3 VARIABILIDADE E ERROS DOS DADOS AMBIENTAIS A grande variabilidade ambiental (variação das características de uma amostra para outra), é um dos factores que mais contribuem para a incerteza da informação recolhida. Esta variabilidade pode ter diferentes causas, tais como: • distribuição não-uniforme da poluição nos meios ambientais, devido à topografia, meteorologia, acção das marés e mecanismos físicos, químicos e biológicos; • a distância, direcção e elevação do ponto amostrado em relação ao ponto de descarga do poluente; • processos de acumulação / degradação de poluentes ao longo do tempo; • variação natural dos meios ambientais ao longo do tempo e do espaço. Os valores obtidos das medições de variáveis podem não constituir valores verdadeiros devido a um conjunto de erros que se podem verificar: – enviezamento da medição é uma sobre ou sob estimação do valor verdadeiro da amostra – a incerteza aleatória da medição são desvios aleatórios do valor verdadeiro. A magnitude deste desvio varia de medição para medição e pode resultar de um conjunto de muitos factores desconhecidos. Em alguns casos, uma distribuição estatística assimétrica, como a lognormal, pode ser aplicada, ou ainda a distribuição assimétrica pode ser aproximada à normal através de transformações. No caso da transformação de dados, podem ser introduzidos enviesamentos se os resultados obtidos foram expressos na escala original. Os dados de base não devem ser correlacionados, já que dados altamente correlacionados no tempo e/ou 5º Ano Eng. Ambiente 7 Modelos de Simulação Erro aleatório da amostra: consiste na variação de uma medição devido apenas ao processo de selecção aleatória das amostras. Este erro é devido à existência da variabilidade ambiental (todos os N elementos da população não têm o mesmo valor para uma mesma variável). Se se pretender estimar o valor médio da população, o erro aleatório estará tanto mais perto de zero, quanto maior for N. Considerem-se, ainda os erros que facilmente podem ocorrer durante a recolha das amostras, as análises de laboratório e as análises estatísticas. Cap 1 – Modelos de Simulação em Ambiente – – – 1.2.4 ESCOLHA DO TIPO DE AMOSTRAGEM A escolha do tipo de amostragem depende dos objectivos do estudo, dos padrões de variabilidade da população em estudo e do factor custo-eficácia de planos alternativos. Existem fundamentalmente quatro tipos de amostragem: • Amostragem Casual – qualquer localização / tempo é válido para tomar uma amostra. Este tipo de amostragem origina estimativas enviezadas das características da população, sendo apropriada para os casos em que a população alvo é completamente homogénea (normalmente não é verdade nos sistemas ambientais). • Amostragem Subjectiva – selecção subjectiva de unidades de população. Este tipo de amostragem pode ser utilizado quando se pode ver todas as unidades de população e seleccionar aquelas que parecem serem as representativas das condições médias. A população alvo tem de estar perfeitamente definida, homogénea e completamente acessível (normalmente não é verdade nos sistemas ambientais). • Amostragem Estatística – refere-se ao uso de métodos específicos de selecção aleatória. – amostragem aleatória simples, onde cada uma das N unidades da população tem igual oportunidade de ser tomada como amostra e a escolha de uma amostra não influencia a escolha de outra. – amostragem aleatória estratificada é utilizada quando a população alvo é heterogénea e tem de ser considerada em partes (estratos) internamente homogéneas. As amostras são seleccionadas de cada 5º Ano Eng. Ambiente – um dos estratos por amostragem aleatória simples. amostragem multi-estágio pressupõe a existência de vários níveis de subamostras. amostragem em "clusters" é útil quando as unidades de população formam "clusters" e todas as unidades em cada "cluster" seleccionado aleatoriamente podem ser medidas. amostragem sistemática em que as amostras são recolhidas de acordo com um padrão temporal ou espacial: por exemplo, locais equidistantes numa linha, ou intervalos de tempo iguais. amostragem dupla é útil quando há uma forte relação linear entre a variável de estudo e uma outra cuja medição seja mais barata e mais facilmente medida. Amostragem de Busca – é útil quando existe informação histórica, conhecimento do local, ou amostras anteriores que indicam onde o objecto da busca pode ser encontrado. 1.2.5 DECISÃO SOBRE O TAMANHO DA AMOSTRA A determinação do tamanho da amostra (1<n<N) é um dos problemas mais cruciais em amostragem, pois o número de indivíduos ou objectos a serem observados é mais importante do que a percentagem da população. O tamanho da amostra depende de inúmeros factores, como os custos envolvidos, a disponibilidade e a acessibilidade aos locais de amostragem, o grau de precisão e de confiança desejado, o objectivo do estudo, o conhecimento que da população a amostrar e do comportamento da variável que se pretende medir. Técnicas de Problemas Ambientais Amostragem Aplicadas a Assumimos o seguinte modelo para a medição xi da iésima unidade da população: xi= µ + di + ei = µi + ei com µ = média verdadeira das N unidades da população, di = distância a que, cada valor verdadeiro para a iésima unidade, µi, está de µ, 8 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente ei = xi - µi = distância a que cada valor da i-ésima unidade, xi está de µi, (medida de incerteza). Os erros standard de xmédia e Nxmédia são as raízes quadradas destas variâncias, ou seja: A média verdadeira para a variável em estudo, por exemplo a concentração de um poluente, é dada por: A concentração total população é I= Nµ. do poluente presente na A variância verdadeira da população é: Muitas vezes é impossível ou demasiado caro medir todas as N unidades da população, e uma vez que se considera que existem sempre ei diferentes de zero, os parâmetros da população são desconhecidos. Neste caso, utilizam-se estimadores desses parâmetros: Uma medida do erro aleatório da amostra associado a xmédia e Nxmédia são as suas variâncias Var(xmédia) e Var(Nxmédia), que são dadas, respectivamente, por: 1.2.6 DETERMINAÇÃO DO TAMANHO DA AMOSTRA Os métodos para a determinação do tamanho da amostra que a seguir se apresentam aplicam-se apenas ao caso de dados independentes (não estão correlacionados no tempo e/ou no espaço, i.e., quando o intervalo e/ou as distâncias entre as amos são suficientemente grandes. 1.2.6.1 VARIÃNCIA PRÉ-ESTABELECIDA Suponhamos que a média verdadeira µ será estimada por xmédia e que Var(xmédia) não deverá ser maior que um valor V pré-estabelecido. Fazendo V=Var(xmédia) e resolvendo em ordem a n, vem Se N é suficientemente grande em relação a s2, vem Nestas expressões, f=n/N é a fracção das N unidades da população alvo que foram medidas. Estas expressões são válidas para o caso da amostragem decorrer sem reposição das unidades medidas no conjunto da população alvo. Os estimadores de Var(xmédia) e Var( Nxmédia) são, respectivamente: 5º Ano Eng. Ambiente 1.2.6.2 MARGEM DE ERRO PRÉ-ESTABELECIDA Fixa-se a margem de erro absoluto d que pode ser tolerada quando decidimos sobre o tamanho da amostra, e a probabilidade a de aceitação de excedermos esse erro. Pretende-se escolher n, tal que: 9 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente onde d e alfa são pre-estabelecidos. Nesta abordagem, V é substituído por (d/Z1-alfa/2)2, onde (Z1-alfa/2) é o desvio normal padrão que "corta" a distribuição normal padrão no ponto (alfa/2). Assim, o tamanho da amostra é dado por: valor de t correspondente, o qual vai ser usado para obter um novo valor de n, que se designa por n3. Após algumas iterações o valor de n estabilizará para um valor, que será o tamanho da amostra desejado. 1.2.7 AMOSTRAGEM ESTRATIFICADA ou, sendo N muito maior que (d/Z1-alfa/2)2, Os valores para Z1-alfa/2, para vários a, são dados em tabelas estatísticas. Alguns valores seleccionados para valores de alfa mais frequentes são dados a seguir: alfa 0.20 0.10 0.05 0.01 Z1alfa/2 1.28 1.65 1.96 2.58 As Equações são perfeitamente aplicadas quando x é normalmente distribuída, o que acontece quando a variável em estudo tem uma distribuição normal, ou quando n é suficientemente grande. Quando não se tem a certeza se os dados se distribuem normalmente, utiliza-se a distribuição t de Student, em vez da distribuição normal padrão para o cálculo de n. Assim, em vez de Z1-alfa/2, utiliza-se t1alfa/2, n-1, que é o valor de t que corta a distribuição t com (n-1) graus de liberdade, no ponto (alfa/2). O valor n é dado então pela expressão: Uma vez que os valores de t1-alfa/2,n-1 dependem de n, é necessário usar um procedimento iterativo. Primeiro determina-se um valor inicial de n (n1). Utiliza-se Z1-alfa/2 neste primeiro passo, porque não se tem um valor para n, para dar entrada na Tabela de t. Uma vez encontrado um primeiro valor para n, procura-se na Tabela t o valor correspondente, que vai utilizar para encontrar um novo valor para n, que se designa por n2. Uma vez encontrado n2, procura-se o 5º Ano Eng. Ambiente A amostragem estratificada usa informação à priori para dividir a população alvo em subgrupos internamente homogéneos. Cada subgrupo (estrato) é então amostrado por amostragem aleatória simples. Seja N o número total de unidades de população na população alvo. Estas n unidades são divididas em L estratos tal que a variabilidade do fenómeno dentro de cada estrato é menor do que na população inteira. Seja N1, N2,..., NL o número de unidades de população em cada estrato. O peso do h-ésimo estrato é dado por Wh=Nh/N. A média da população de N unidades é dada a seguir, em que µh é a média verdadeira de cada estrato: A média µh é estimada seleccionando aleatoriamente nh unidades do estrato h e fazendo A média da população, µ, é dada pelo estimador: Note-se que Xmédiaestrat é uma média pesada, representando os Wh o tamanho relativo de cada estrato. Se Nh/N= nh/n em todos os estratos, ou seja, se a proporção de amostras colhidas no estrato h é igual à proporção de N unidades nesse estrato (afectação proporcional), então Xmédiaestrat reduzse à expressão seguinte que é a média aritmética dos n dados colhidos em todos os L estratos: 10 Modelos de Simulação Este tipo de abordagem é mais simples, mas não é aconselhável se a variabilidade dos dados é grande para os vários estratos, o que acontece com frequência. Uma vez que só algumas das unidades de população em cada estrato foram medidas, Xmédiaestrat tem uma variância, dada a seguir, se N é muito grande, sendo s2h a variância em cada estrato: Cap 1 – Modelos de Simulação em Ambiente 1.2.9 AMOSTRAGEM SISTEMÁTICA Utiliza-se quando se pretende estimar padrões de qualidade a longo prazo, definir sazonalidades ou outros ciclos ou prever concentrações de poluição. É normalmente mais fácil de implementar do que a amostragem aleatória. No entanto, se a variável que está a ser medida tem algum tipo de periodicidade ao longo do tempo e/ou espaço, a amostragem sistemática pode dar estimativas enviezadas ou mesmo erradas dos parâmetros da população que pretendemos saber. O total da variável em todos os estratos é dado a seguir, sendo Nhµh o total em cada estrato h: 1.2.9.1 AMOSTRAGEM AO LONGO DE UMA LINHA O total I é estimado, usando a seguinte expressão, onde Nhxhmédia é o total estimado em cada estrato h: Uma estimativa da variância é obtida por: Considere-se a amostragem ao longo do tempo numa estação de monitorização de poluição do ar, a fim de se estimar a média anual de certo poluente. As medições do poluente são feitas em filtros que estiveram expostos ao ar durante 24 h, logo a população alvo consiste em N=365 dias. A obtenção de uma estimativa não enviezada para m pode ser obtida através de uma amostragem sistemática. Em primeiro lugar, escolhe-se um intervalo k (período entre os tempos de recolha), por exemplo k=5. Então, um número entre 1 e k, inclusive, é escolhido aleatoriamente, por exemplo 3. Assim, a primeira amostra de ar será colhida no dia 3 de Janeiro e as seguintes em cada 5 dias, ou seja, nos dias 8, 13, 18, 23. O número total de observações para o ano é n=N/k, que para este caso vem n=365/5=73. 1.2.8 AMOSTRAGEM POR COMPOSIÇÃO Uma forma alternativa de estimar um parâmetro de uma população consiste em coleccionar um conjunto de unidades da população e misturá-las numa amostra compósita. Esta amostra inteira é medida, ou então uma ou mais sub-amostras aleatórias são obtidas a partir da amostra compósita e medidas. Se o processo de mistura está completo, as subamostras representam a concentração média das amostras originais. O processo de composição pode variar de caso para caso, em função do objectivo do estudo. Por exemplo, o processo de composição é diferente se se pretende avaliar a variação da concentração de um poluente no tempo ou no espaço, ou se se pretende apenas estimar o valor médio da concentração desse poluente na população. 5º Ano Eng. Ambiente A figura ilustra a importância de se conhecer o padrão de variação de uma variável antes de se escolher o valor k. Trata-se de uma variação em onda com um período igual a 30 dias. Se k for igual a 30, como é ilustrado pelos pontos de amostragem A, todos os valores obtidos 11 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente serão iguais. Neste caso, não há mais informação nas n medições do que numa simples observação escolhida aleatoriamente. Deste modo, a estimativa obtida será enviezada a menos que por sorte o ponto de amostragem cai sobre a linha do valor médio. Se k=15, como ilustrado pelos pontos B da figura, os dados obtidos pela amostragem sistemática terão a mesma distância acima ou abaixo da média verdadeira. Neste caso, x=µ e Var(xmédia)=0. Verifica-se que, quando se pretende estimar o valor médio de uma população, a estratégia a seguir na escolha de k, é assegurar que todas as partes do ciclo estão representadas. Por exemplo, se o ciclo é semanal, todos os dias da semana deveriam estar igualmente representados. período. A média regional pode ser estimada através de: onde xij corresponde à j-ésima observação na estação i e xmédiai é a média estimada para a i-ésima estação. Assumindo que a variância ao longo do tempo s2 é a mesma para cada estação e que os dados estão correlacionados em termos espaciais mas não ao longo do tempo e que as médias reais de cada estação µi são iguais, a variância da média regional é dada pela expressão: 1.2.9.2 AMOSTRAGEM DE UM ESPAÇO onde rc é a média das ne(ne-1)/2 correlações cruzadas entre as ne estações, onde -1/(ne-1) <= rc <= 1. Para esta situação, o cálculo do número de amostras a recolher por estação quando se estabelecem o número de estações de amostragem, para uma determinada exactidão e grau de confiança dos dados d e Z1-alfa/2, respectivamente, pode ser efectuado pela expressão: Para determinar as unidades de população a serem amostradas, primeiro escolhe-se a distância entre as linhas e depois duas coordenadas são escolhidas aleatoriamente para fixar a localização do ponto inicial A. Os restantes pontos da grelha são fixados pelas distâncias definidas previamente. 1.2.10 CORRELAÇÃO ESPACIAL E TEMPORAL Correlação espacial Muitos dos métodos utilizados para estimar o número de amostras a serem recolhidas (n) assumem que os dados não estão correlacionados. Na prática, a correlação espacial pode existir e assim parte da informação contida numa medição é também parte de outras medições obtidas em distâncias próximas. Se se recolherem n observações em cada uma das ne estações ao longo do mesmo período de tempo de forma a se estimar a média regional para esse mesmo 5º Ano Eng. Ambiente Esta mesma expressão pode ser utilizada para o caso em que se estabelece o número de amostras e se pretende determinar o número de estações. Na prática rc será normalmente superior a zero. Porém, teoricamente rc pode ser negativo o que resultaria em se recolherem menos amostras em comparação com uma situação em que a correlação espacial não é considerada. Neste caso recomenda-se que se considere rc igual a zero ou se considere o seu valor absoluto. Correlação temporal De forma a se estudar uma correlação temporal é requerido que as amostras sejam recolhidas em intervalos de tempo iguais (um caso de amostragem sistemática). Considere-se r1 como sendo a correlação da população entre valores recolhidos com separação de um intervalo, isto é, entre os valores x1 e x2, x2 e x3, x3 e x4 etc. Considere-se igualmente r2 a correlação entre valores recolhidos com separação de 2 intervalos 12 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente (x1 e x3, x2 e x4, etc.) e, em geral, rl, a correlação entre valores recolhidos com separação de l intervalos, em que -1 <= rl <=1. O conjunto {r1, r2, r3,...} denominase a função autocorrelação. Assume-se que o processo em análise não apresenta ciclos, não tem nenhuma tendência de longo prazo e não apresenta saltos em magnitude ou mudança da função autocorrelação ao longo do tempo. O número de amostras para um determinado nível de significância a e uma exactidão d é dado pela expressão simplificada: O inverso (calcular o número de estações necessárias em função do número de amostras por estação previamente fixado) é calculado usando a seguinte fórmula: Z1-alfa/2 tem uma distribuição normal padrão e consequentemente assume-se que os valores recolhidos têm igualmente uma distribuição normal. A expressão utilizada para o cálculo do l-ésimo intervalo de correlação rl é a seguinte: 1.2.12 MODELOS REGRESSIVOS MULTIVARIADOS 1.2.12.1 REGRESSÃO LINEAR SIMPLES Exemplo de cálculo de um coeficiente de autocorrelação: Considere-se a sequência de 5 medições 5, 3, 7, 4 e 10 recolhidas uma por mês durante cinco meses consecutivos. Xmédia = 5.8. A autocorrelação estimada para as medições distanciadas de 2 intervalos (l=2) é dada por: Estimativas de r1, r3 e r4 são obtidas da forma semelhante. Na prática, pelo menos n = 50 valores são necessários para se obterem estimativas exactas de rl para intervalos l =1, 2,..., k, em que k não deve exceder n/4. 1.2.11 CORRELAÇÃO ESPACIAL E TEMPORAL No caso de se considerar que os dados estão correlacionados simultaneamente em termos do espaço e do tempo, o número de amostras a recolher por estação (estando o número de estações previamente fixado) pode ser calculado através da expressão: 5º Ano Eng. Ambiente A regressão linear simples pretende estabelecer uma possível relação linear entre duas variáveis, x e y. Convencionalmente x é o predictor (variável independente) e y o predictando (variável dependente). Quando se representam as duas variáveis x e y através de um gráfico de dispersão, pretende-se, através da regressão linear simples, sintetizar a relação entre as duas variáveis, através de uma recta, que é escolhida pelo método dos mínimos quadrados, isto é, sendo aquela que minimiza a soma do quadrado dos desvios. Dada uma série de pares (x,y) pretende-se determinar a recta yˆ a bx que melhor se ajusta às observações, i. e., que minimiza os quadrados das distâncias verticais (linhas a ponteado) entre os pontos (x,y) e a recta. O símbolo ^ indica que se refere ao valor previsto de y. As distâncias verticais constituem os erros, e, definidos por: ei yi yˆ xi 13 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente A equação garante que é nulo o valor médio em torno do qual os resíduos se distribuem aleatoriamente. Cada resíduo observado pode assim ser encarado como tendo sido obtido a partir de distribuições condicionais dado o valor do predictor x. Regressão linear simples. A recta de regressão, é escolhida de forma a minimizar as diferenças verticais (erros) entre os pontos e a recta, cuja soma se pretende minimizar na regressão por mínimos quadrados. Em destaque mostra-se o erro, e, que é dado pela diferença entre o ponto e a recta de regressão. (Wilks, 1995). Esquema da distribuição dos resíduos em torno da recta de regressão (distribuições condicionais dada a variável predictora x). (Wilks, 1995). Combinando as expressões obtêm-se yi yˆi ei a bxi ei a e b são denominados coeficientes de regressão, sendo b o declive da recta de regressão e a a média da distribuição de probabilidade de y para x=0. A soma do quadrado dos erros para uma amostra de dimensão n vem dada pela relação: 2 n ei i 1 2 n 2 n yi yˆi yi _a bxi i 1 i 1 Note-se que a distribuição dos resíduos se encontra menos dispersa (tem menor variância) que a distribuição não condicional de y (i. e., distribuição de y caso o valor de x não fosse conhecido). Assume grande importância a determinação da variância residual (constante) da amostra de resíduos, que desde que esteja garantido o constrangimento anterior, poderá ser estimada pela relação: Resolvendo em ordem aos parâmetros b e a obtêm-se finalmente: n b xi i 1 n x yi y xi x i 1 2 n n n i 1 i 1 i 1 n xi yi xi yi n n 2 xi 2 xi i 1 i 1 se2 onde a soma dos resíduos é dividida por n-2 por se estar a estimar dois parâmetros (a e b). Substituindo vem finalmente: se2 a y bx 1.2.12.2 DISTRIBUIÇÃO DOS RESIDUOS No método da regressão, as quantidades são encaradas como variáveis aleatórias independentes, com média zero e variância constante, sendo ainda, por vezes, assumido que os resíduos têm uma distribuição gaussiana. De facto, n e i 1 i 1 n 2 ei n 2 i 1 1 n yi yˆxi n 2 i 1 2 É útil decompor a variância total do predictando y, S22, em duas componentes, S11 e S12 , respectivamente correspondentes à variância dada pela recta de regressão e à variância dos resíduos, isto é: S22 S11 S12 0 5º Ano Eng. Ambiente 14 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente O termo S22 que representa a soma dos quadrados dos totais dos desvios, consiste matematicamente na soma dos quadrados dos desvios de y em relação à respectiva média, i. é: expressão que permite estimar Se2 sem necessidade de calcular os valores previstos . 2 n 1.2.12.3 REGRESSÃO LINEAR MULTIVARIADA n S22 yi yi yi2 ny 2 i 1 i 1 sendo de notar que é proporcional (por um factor de n1) à variância de y. O termo S11 , que representa a soma dos quadrados dos desvios da regressão é dado pela soma dos quadrados dos desvios das previsões da regressão em relação à média da amostra de y, isto é: n S11 yˆxi y i 1 2 ou ainda, recorrendo à equação de regressão por: n S11 b 2 xi x i 1 2 n b 2 xi2 nx 2 i 1 que mostra que quando a recta de regressão diferir pouco da média da amostra de y ter-se-á um valor pequeno de S11 . O termo S12, que representa a soma dos quadrados dos erros vem dado pela a soma dos quadrados entre os valores de y e os respectivos valores previstos yˆ xi , i.e.: n ŷxi S12 ei n 2 se2 2 Pretende-se obter uma relação linear entre um dado predictando y e um conjunto de p predictores x1, x2, ..., x p . Considerando que se têm n observações de p predictores, pretende determinarse: yi a b1 xi1 b2 xi 2 .... b p xip ei i = 1,...., n Com, a representa o valor médio da distribuição de probabilidade para o pto x 0,0,0,..., 0 e o parâmetro bj representa a taxa de variação da média por unidade de crescimento de xij , quando xik (com kj) são constantes. Neste caso, os desvios xX X e y Y Y são representados por matrizes nxp e nx1 , respectivamente, em que cada coluna representa o desvio em relação à média da correspondente variável original. As matrizes de variância-covariância são definidas pelas relações: S11 1 x' x n S12 S 21 ' S 22 1 x' y n 1 y' y n em que ( )' representa a matriz transposta. Note-se que a matriz S22 representa a variância da variável dependente, y (y2 ). i 1 Combinando vem 1 S 22 S11 s n2 ou 2 e se2 n 1 n 2 2 2 y n y b xi2 nx 2 i n 2 i 1 i 1 5º Ano Eng. Ambiente A equação de regressão múltipla é dada pela relação: 1 1 Yˆ XS11 S12 XS11 S12 Y Convém ainda definir a redução de variância (RV) e o coeficiente de correlação múltipla (R) dados por: n 1 n Yi Y 2 1 Yi Yˆ n n i 1 RV R 2 i 1 n 1 Yi Y 2 n i 1 15 2 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente i.e., previamente transformado num binário (série que toma apenas um de dois valores - 0 ou 1 - conforme os respectivos valores originais se situarem abaixo ou acima de um dado valor crítico). A nova variável pode ser construída a partir do predictando original, de acordo com a transformação: RV R 2 variância de y - erro médio quadrático de y variância de y Note-se que estas quantidades se podem facilmente calcular utilizando as matrizes atrás definidas: 1 1 S S S S S S RV R 21 11 12 21 112 12 S 22 ˆ y 2 tendo-se que 0 R 2 1 . R2 assume os valores 0 e 1 respectivamente quando todos os coeficientes forem nulos e quando todas as observações são ˆ , para perfeitamente ajustadas, i.e., quando yi y todos os valores de i. Note-se que um valor elevado de R2 não implica necessariamente que o modelo ajustado seja de boa qualidade pois esta situação pode ficar a dever-se ao facto dos predictores serem em número demasiado elevado (overfitting). Em certas condições, a análise de variância pode ser ainda utilizada para testar a significância de cada um dos parâmetros individuais da equação de regressão, nomeadamente na determinação de qual dos predictores acrescenta informação predictiva. A regressão linear pode ser utilizado, para todo o tipo de distribuição dos predictores e predictandos, exceptuando-se o caso em que um predictor vem dado por uma combinação linear de um ou mais predictores. Nesta situação, a inversa de não pode ser determinada, por se tratar de uma matriz singular. Refira-se ainda que o modelo aqui descrito se diz linear, pelo facto de a função a ajustar ser uma combinação linear dos predictores; 1.3 PREVISÕES DE PROBABILIDADE DE OCORRÊNCIA Uma vantagem da previsão estatística sobre a previsão dinâmica (determinista) é a capacidade de se produzirem previsões de probabilidade, i.e., previsões que exprimem, de forma explícita, o grau de incerteza ou desconhecimento acerca do futuro. A previsão de probabilidade é um tipo de previsão em q. o predictando é a probabilidade de ocorrência de um dado acontecimento. Geralmente, os sistemas que produzem previsões de probabilidade são desenvolvidos a partir de equações de regressão, em que o predictando foi 5º Ano Eng. Ambiente 1 se y1 c y2 0 se y1 c onde c é o valor crítico. O procedimento descrito, em que a equação de regressão é obtida a partir de um predictando binário é usualmente designado regressão para estimação de iguais probabilidades. Neste caso os valores previstos resultantes apresentam geralmente valores entre 0 e 1. 1.3.1 PREVISÕES CATEGÓRICAS Denomina-se previsão categórica aquela em que se prevê a ocorrência de um só acontecimento, de um dado conjunto de acontecimentos possíveis. Quando se dispõe de um modelo de probabilidade de ocorrência, é possível proceder ao desenvolvimento de um modelo de previsão categórica através da conversão das probabilidades de ocorrência em 2 categorias distintas mediante a escolha de c, abaixo do qual a previsão categórica será "não ocorrência" e acima do qual será "ocorrência". Note-se que a escolha desse valor crítico depende da utilização da previsão, assim como de outros problemas específicos relacionados com a previsão. Existem diferentes possibilidades para a escolha daquele patamar de probabilidade, resultando de cada uma das escolhas diferentes resultados. Um primeiro procedimento consiste em prever o acontecimento mais provável, o que corresponde a seleccionar um patamar de probabilidade de 0.50. Outro procedimento consiste em utilizar a frequência relativa climatológica do acontecimento a prever. Há mais procedimentos, frequentemente utilizados para escolher o patamar de probabilidade, alguns dos quais se baseiam no viés (B), devendo escolher-se o patamar que produz, tanto quanto possível, B 1 . 1.3.2 VERIFICAÇÃO DA PREVISÃO Constitui um processo para determinar a qualidade da mesma e envolve a investigação das 16 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente propriedades da distribuição conjunta de previsões e observações. O skill é geralmente apresentado na forma de um skill score (SS), interpretado como uma percentagem de melhoramento, o qual é caracterizado por uma medida particular de exactidão (accuracy) A, em relação à exactidão da série de referência, isto é: 1.3.3 PREDICTANDOS CONTÍNUOS A) Erro absoluto médio (EAM). O erro absoluto médio é dado pela média aritmética dos valores absolutos das diferenças entre valores previstos e observados, sendo definido pela relação: EAM 1 n yk ok . n k 1 onde é o k-ésimo par de n pares de previsões e observações. O EAM é zero no caso de uma previsão perfeita e cresce quando aumentam as discrepâncias entre previsões e observações. B) Erro quadrático médio (EQM). O erro quadrático médio (EQM) é dado pela média aritmética dos quadrados das diferenças entre valores previstos e observados, sendo definido pela relação: EQM 1 n yk ok .2 n k 1 O EQM é mais sensível aos erros maiores do que o EAM, crescendo desde zero para previsões perfeitas até valores cada vez mais elevados conforme aumentam as diferenças entre previsões e observações. Por vezes, define-se a raiz do erro quadrático médio (REQM) dado pela relação: REQM EQM que tem a mesma dimensão física que as previsões e as observações e pode ser encarado como fornecendo a magnitude típica dos erros. C) Skill Scores. O skill refere-se à exactidão relativa de uma dada série de previsões em relação a uma série de previsão de controlo ou de referência. As escolhas mais usuais para as séries de referência são a média climatológica dos valores do predictando, a persistência da previsão (valores do predictando num período anterior) ou previsões aleatórias (com respeito à frequência relativa climatológica dos acontecimentos previstos). 5º Ano Eng. Ambiente SS ref A Aref Aperf Aref 100% onde Aperf é o o valor de medida da exactidão que seria encontrada numa previsão perfeita. Se A = Aperf, o skill score assume o valor máximo de 100%. Se A = Aref,, então Ssref = 0%, o que indica que não houve melhoramento em relação a previsão de referência. As medidas de exactidão a utilizar podem ser facilmente construídas utilizando quer o EQM, quer o EAM, sendo-se conduzido, no primeiro caso, às relações: 2 1 n (a) EQM c lim o ok n k 1 2 (b) EQM pers 1 n ok 1 ok n k 1 onde os índices clim e pers se referem respectivamente à climatologia e à persistência e representa um valor médio climatológico das observações. Neste caso, o Skill Score será dado pela fórmula: SS c lim EMQ EMQc lim EMQ 1 0 EMQc lim EMQc lim visto serem nulos quer o EQM, quer o EAM de uma previsão perfeita. 1.3.4 PREVISÕES DE PROBABILIDADE DE OCORRÊNCIA A previsão de probabilidade de ocorrência é usualmente formulada e verificada para predictandos discretos e, em geral, para acontecimentos dicotómicos, i.e., para situações em que um dado acontecimento ocorre ou não ocorre. A) Brier Score. Para a probabilidade de verificação ocorrência de modelos de de acontecimentos 17 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente dicotómicos podem definir-se diversas medidas de exactidão sendo a mais comum o Brier Score (BS); este índice consiste essencialmente na determinação do erro quadrático médio da previsão de probabilidade, considerando que a observação assume os valores 1 ou 0, caso os acontecimentos respectivamente tenham ocorrido ou não. Na figura apresentam-se 6 casos típicos de gráficos de fiabilidade, que ilustram o modo como se podem diagnosticar diversos tipos de relação entre previsões e observações. Em cada caso, igualmente se apresenta um histograma de frequências relativas para as diferentes classes de valores previstos. a fig. a) mostra o caso elementar de uma previsão climatológica, onde é sempre previsto um único valor de probabilidade de ocorrência, indicado no gráfico por um ponto e no histograma por uma única barra, caso este em que se tem uma fiabilidade perfeita, mas sem resolução (skill). as restantes figuras mostram casos em que são previstas classes distintas de probabilidade de ocorrência. as previsões, na fig b), são de pouca fiabilidade e de resolução pobre; a fig. c), em que as frequências para as classes de acontecimentos previstos são idênticas às do caso anterior, já apresenta melhores resultados, tendo-se obtido uma boa resolução, mas um viés permanente, indicativo de uma subestimação (undeforecasting). a previsão da fig. d) mostra uma óptima resolução obtida à custa de uma degradação da fiabilidade, dado que se tem uma sobrestimação das pequenas probabilidades e uma subestimação das grandes probabilidades. e) e f) ilustram respectivamente uma previsão bem calibrada para acontecimentos raros e outra em que a verificação dos dados está limitada pelo comprimento reduzido da amostra utilizada. Tem-se que: 2 1 n BS yk ok , n k 1 em que o indice k indica o par previsão/observação. Para previsões perfeitas BS = 0, enquanto as previsões menos precisas têm um valor mais elevado do Brier Score, tendo-se que o Brier Score toma apenas valores no intervalo 0 BS 1 Podem construir-se skill scores da seguinte forma: SS BS BS ref 0 BS ref 1 BS BS ref sendo de notar que BSperf = 0. Normalmente, tomamse para valores da previsão de referência as frequências relativas da climatologia. B) Gráfico de fiabilidade. O gráfico de fiabilidade é utilizado na representação gráfica do desempenho (perfomance) da previsão de probabilidade de acontecimentos dicotómicos. Trata-se de um gráfico de frequências relativas observadas de ocorrência versus valores previstos de probabilidade de ocorrência. A curva obtida deverá ser comparada com a linha diagonal que representa a linha de fiabilidade perfeita. 1.3.5 PREVISÕES CATEGÓRICAS A) Tabelas de contingência A verificação de previsões categóricas, formulada a partir de tabelas de contingências, contem os valores das frequências absolutas (ou relativas) do conjunto de possíveis pares previsão/observação. Para previsões binárias, têm-se tabelas de entradas respectivamente correspondentes aos pares observados/previstos, observados/não previstos, não observados/previstos e não observados/não previstos. 5º Ano Eng. Ambiente 18 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente Tabelas de contingência para previsões categóricas binárias. Note-se que POD = 1 para previsões perfeitas e POD = 0 para previsões totalmente incorrectas. O falso alarme (false alarm ratio, FAR) representa a proporção de acontecimentos previstos que não aconteceram, sendo dado pela relação: FAR b ab Neste caso, as melhores previsões correspondem a valores pequenos de FAR, o qual percorre o intervalo de 0 (previsão perfeita) a 1. O viés (bias, B) permite comparar o número de vezes em que o acontecimento foi previsto com o respectivo número de vezes em que ocorreu, isto é: Na tabela da esquerda, as letras a a d correspondem às frequências absolutas dos 4 possíveis pares previsão/observação; igualmente se apresentam as frequências absolutas marginais a+c e b+d dos casos observados e a+b e c+d dos casos previstos. Na tabela da direita apresentam-se os respectivos valores formulados em termos de frequências relativas, sendo de notar que o comprimento da amostra é n=a+b+c+d. (Wilks). B) Medidas de exactidão para previsões binárias. Note-se que, para previsões categóricas binárias perfeitamente exactas se tem b = c = 0. A medida de exactidão mais imediata para o caso de previsões categóricas binárias é dada pela taxa de sucesso (hit rate, H) definida pela relação: H Um valor de B maior que a unidade indica que o acontecimento foi sobrestimado, i.e., foi previsto mais vezes do que na realidade ocorreu (overforecasting) e um valor de B menor que a unidade indica que o acontecimento foi subestimado (underforecasting). Exercício 1 ad n a qual satisfaz ao princípio de equivalência dos acontecimentos, dado que são contabilizadas (penalizadas), com igual peso as previsões correctas (incorrectas), sendo de notar que os valores percorrem o intervalo de 0 (previsão totalmente incorrecta) a 1 (previsão perfeita). Por vezes, os valores de H vêm multiplicados por 100, sendo então expressos como percentagens de previsões correctas (PFC). Uma outra medida de exactidão é a denominada probabilidade de detecção (probability of detection, POD), que representa a fracção de vezes em que o acontecimento ocorrido foi, de facto, previsto: POD 5º Ano Eng. Ambiente a ac ab ac B Total 2 2 Yi Xi XiYi Xi 73 30 2190 900 5329 50 20 1000 400 2500 128 60 7680 3600 16384 170 80 13600 6400 28900 Yi 87 40 3480 1600 7569 108 50 5400 2500 11664 135 60 8100 3600 18225 69 30 2070 900 4761 148 70 10360 4900 21904 132 60 7920 3600 17424 1100 500 61800 28400 134660 Exercício 2 Distritos Vendas População Alvo Receitas 1 162 274 2450 2 120 180 3254 3 223 375 3802 4 131 205 2838 5 67 86 2347 6 169 265 3782 7 81 98 3008 8 192 330 2450 9 116 195 2137 10 55 53 2560 11 252 430 4020 12 232 372 4427 13 144 236 2660 14 103 157 2088 15 212 370 2605 19 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente EXERCÍCIO 1 » load exer1.txt » Y=exer1(:,1) » b=inv(X'*X)*(X'*Y) b= Y= 10.0000 2.0000 73 50 128 170 87 108 135 69 148 132 » » X(:,1)=exer1(:,2); » X(:,2)=exer1(:,3); »X X= 1 1 1 1 1 1 1 1 1 1 30 20 60 80 40 50 60 30 70 60 274 180 375 205 86 265 98 330 195 53 430 372 236 157 370 2450 3254 3802 2838 2347 3782 3008 2450 2137 2560 4020 4427 2660 2088 2605 » X(:,1)=[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]'; » X(:,2)=rec(:,3); » X(:,3)=rec(:,4); »X X= » X'*X ans = 10 500 EXERCÍCIO 2 » clear all » load receitas.txt » rec=receitas rec = 1 162 2 120 3 223 4 131 5 67 6 169 7 81 8 192 9 116 10 55 11 252 12 232 13 144 14 103 15 212 500 28400 » inv(X'*X) ans = 0.8353 -0.0147 -0.0147 0.0003 » X'*Y ans = 1100 61800 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 274 180 375 205 86 265 98 330 195 53 430 372 236 157 370 2450 3254 3802 2838 2347 3782 3008 2450 2137 2560 4020 4427 2660 2088 2605 » Y=rec(:,2) 5º Ano Eng. Ambiente 20 Modelos de Simulação Y= 162 120 223 131 67 169 81 192 116 55 252 232 144 103 212 » X'*X ans = 15 3626 44428 Cap 1 – Modelos de Simulação em Ambiente 3626 44428 1067614 11419181 11419181 139063428 » inv(X'*X) ans = 1.2463 0.0002 -0.0004 0.0002 0.0000 -0.0000 -0.0004 -0.0000 0.0000 » X'*Y ans = 2259 647107 7096619 » b=inv(X'*X)*(X'*Y) b= 3.4526 0.4960 0.0092 5º Ano Eng. Ambiente 21 Modelos de Simulação 1.4 MODELOS DINÂMICOS O desenvolvimento de computadores de alta velocidade tem tido um grande impacto na resolução de problemas de mecânica de fluidos e transferência de calor. Os problemas que antes eram resolvidos em anos de trabalho, são-no agora, em poucos segundos de tempo de computador. Tem-se verificado um importante crescimento de novas metodologias de ataque aos complexos problemas de mecânica de fluidos e transferência de calor, que têm sido designadas por dinâmica de fluidos computacional (Computacional Fluid dynamics - CFD). Nesta aproximação computacional (numérica) as equações que governam os processos de interesse são resolvidas numericamente. Algumas das ideias envolvidas são muito antigas. O desenvolvimento dos métodos numéricos, especialmente os métodos de diferenças finitas para a resolução de equações diferenciais parciais e ordinárias começou há cerca de um século. O primeiro computador automático foi inventado na década de 30, mas só com o aparecimento dos computadores de alta velocidade se deu a explosão da actividade computacional. Tradicionalmente, os métodos teóricos e experimentais eram utilizados para o desenvolvimento de equipamentos, mas com o aparecimento dos computadores surge um terceiro tipo de aproximação: os métodos numéricos. Os métodos experimentais continuam a ser muitíssimo importantes, especialmente quando envolvem fluidos muito complexo, apesar de se verificar uma tendência cada vez mais significativa de um uso cada vez mais extensivo dos métodos numéricos. O método teórico é muitas vezes referido como uma aproximação analítica, enquanto que se utilizam as expressões métodos numéricos e computacionais de forma indiferenciada. Cap 1 – Modelos de Simulação em Ambiente A figura ilustra a comparação entre os métodos teórico, experimental e numérico na resolução do problema do cálculo da pressão de um cilindro circular. Diferenças Finitas Objectivo: Obtenção de soluções discretas e aproximadas de equações envolvendo operações aritméticas simples. Formulação Definição do domínio computacional e da malha Sistemas de equações algébricas Algoritmo de solução 5º Ano Eng. Ambiente 22 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente Equações diferenciais Pretende-se transformar a equação diferencial numa equação algébrica através da expansão em séries de Taylor ou por aproximação polinomial, ou ainda utilizando o método do Volume de Controlo. O domínio contínuo é substituído por lugares discretos e o tempo por intervalos de tempo t As derivadas são aproximadas por um quociente de adições e subtracções. As aproximações numéricas aplicadas a todos os pontos conduzem a um conjunto de equações resolvidas para cada intervalo de tempo. O sistema de equações resolve-se por métodos directos ou interactivos. 1.4.1 ESCOLHA DA MALHA Séries de Taylor. Em geral a escolha da malha é influenciada pela forma das fronteiras do domínio do escoamento. A complexidade da solução aumenta com a generalidade da malha e sua irregularidade. Alguns tipos de malha só podem ser extensíveis a 3-D dimensões com extremas dificuldades (por exemplo a malha geral ortogonal). Diferenças a Jusante (precisão de 1ª ordem em x) f i 1 j f ij 2 f f O x , x x 2 x ij Diferenças a Montante (precisão de 1ª ordem em x) f ij f i 1 j 2 f f O x, 2 x x x ij Diferenças Centrais (precisão de 2ª ordem em x) f i 1, j f i 1, j 3 f f O x 2 , 3 2x x x ij Diferenças Centrais (precisão de 2ª ordem em x) 2 f 2 x f 2 f ij f i 1, j 2 4 f i 1, j x , 4 O x 2 x ij Diferenças Centrais (precisão de 4ª ordem em x) f i 1, j f i 1, j 1 f i 2, j f i 2, j 5 f f 3 O x 4 , 5 43 2x 4x x x ij 5º Ano Eng. Ambiente 23 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente Diferenças a Jusante (precisão de 1ª ordem em x) 2 f 2 x f 2 f i 1, j f ij 3 f i 2, j 3 2 x ij x x ij Diferenças a Jusante (precisão de 2ª ordem em x) f i 2, j 4 f i 1, j 3 f ij 2 3 f f O x , 3 2x x x ij 5º Ano Eng. Ambiente 24 Modelos de Simulação 5º Ano Eng. Ambiente Cap 1 – Modelos de Simulação em Ambiente 25 Modelos de Simulação 1.4.2 Cap 1 – Modelos de Simulação em Ambiente APROXIMAÇÃO POLINOMINAL Consiste em aproximar uma função dos pontos da malha, derivando em seguida a função obtida. Exemplo: f i 1 a bx cx 2 f ( x) a bx cx 2 f i a 2 f i 1 a bx cx c f i 1 f i 1 2 f i 2x 2 b f i 1 f i 1 2x Nota: As discretizações apresentadas para as derivadas espaciais aplicam-se de forma semelhante para as derivadas temporais. 1.4.3 MÉTODO DO VOLUME DE CONTROLO a fi Vantagens: Este método baseia-se nas leis de conservação macroscópicas, em vez de leis válidas para volumes de controlo infinitesimal. Equação de transporte de : u j t x j x j 2 f ( x) a bx cx f f i 1 f i 1 b 2cx x 0 b x 2x i 2 f f f 2 fi 2 2c i 1 i 21 x x i F x j Integrando no Volume de Controlo em torno do ponto (i,j,k), obtêm-se DIFERENÇAS CENTRAIS (*) DIFERENÇAS CENTRAIS vc dv t x j vc u j dv F dv x j vc Aplicando o Teorema da Divergência, vem (*) Para o cálculo de f x as diferenças centrais são exactas em polinómios do 2º grau (o erro de truncatura é 3 f ). O x 2 , u j .n j dS dv F dv sc t x j vc vc x 3 Com um polinómio de 1º grau f=a+bx, obtêm-se diferenças a montante ou a jusante, consoante os 2 2 pontos i e i-1 ou i e i+1. Para obter f x necessário calcular primeiro f x i 1 2 e f x i 1 2 fluxo convectivo de fluxo difusivo de Para polinómios de grau > 2, as equações obtidas não são semelhantes às obtidas em séries de Taylor. À medida que a ordem do polinómio aumenta, a aproximação torna-se mais sensível a erros de pequena amplitude e o cálculo das derivadas pode originar valores absurdos. 5º Ano Eng. Ambiente 26 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente O princípio de conservação expresso pela equação diferencial é satisfeito na forma de um balanço macroscópico no VC. limite quando t, x, y, z tendem para zero, a equação das diferenças finitas é igual à equação diferencial original em cada ponto do domínio. Para fazer a análise de consistência, substitui-se na equação de diferenças finitas, cada variável pelo desenvolvimento em série de Taylor em torno do ponto (i,j,k). A diferença entre a equação diferencial obtida e a equação diferencial original, designa-se por erro de truncatura da discretização. Exemplo: 2 t x 2 A equação é a expressão matemática da seguinte lei de conservação: Taxa de variação de no VC = fluxo convectivo e difusivo de através das faces do VC + produção/dissipação. O método do Volume de Controlo quando comparado com os outros métodos, tem a vantagem de ser um método conservativo, i.e., satisfaz a lei de conservação expressa matematicamente pela equação anterior. Para que a propriedade conservativa seja satisfeita é necessário que os fluxos através das superfícies dos volumes de controlo adjacentes sejam calculadas da mesma forma, pois os fluxos contribuem com sinais opostos (entrada e saída) no interior do domínio e a sua soma anula-se. A satisfação desta propriedade depende também da forma da equação diferencial. 1.4.4 CRITÉRIOS A DISCRETIZAÇÃO CONSIDERAR NA 1. Consistência 2. Convergência 3. Estabilidade Há ainda outras propriedades, tais como a propriedade transportativa e conservativa e a positividade, que não serão consideradas no âmbito desta disciplina. 1.4.4.1 CONSISTÊNCIA Uma equação de diferenças finitas diz-se consistente com a equação diferencial que lhe deu origem, se o erro de truncatura local tende para zero quando os incrementos t, x, y, z tendem para zero, independentemente da forma como o fazem. No 5º Ano Eng. Ambiente Discretização ti 1 ti t 2 ti ti 1 i 1 t x 2 ti 1 d ti 1 (1 2d ) ti d ti 1 com d t x 2 Fazendo uma análise de consistência o erro de truncatura é: t t t 2 x 4 4 O t 2 , x 4 E 2 2 t i 12 t i lim E 0 Como x , t o finitas é consistente. a equação de diferenças A consistência é condição necessária, mas não suficiente de convergência. No exemplo anterior se d=1, a solução da equação de fierenças finitas diverge (o esquema não é estável). Quando a consistência não se verifica a equação de diferenças finitas pode convergir para a solução de outra equação diferencial ou pode divergir. Exemplo u 2 2 t x x u i 1 u i 1 ti 1 ti 1 ti 1 ti 1 ti 1 ti 1 2t x 2 x 2 t t 27 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente 2 4 4 t 2 3 ux 2 3 x 2 4 t t E .... 2 6 t 3 6 t 3 12 t 4 12 x 2 t 4 x t 2 Como lim E 0 x , t o se e só se (FIGURA) t 0 x , t o x lim Se isto não se verificar a equação de diferenças finitas é consistente com a equação diferencial 2 u 2 t 2 2 t x x x t 2 Os erros referem-se ao erro de discretização e ao erro de arredondamento, o qual resulta do computador utilizar um número finito de dígitos. erro 1 1.4.4.2 CONVERGÊNCIA A solução de uma equação de diferenças finitas é convergente se em cada nó da malha tender para a solução da equação diferencial, quando t, x, y, z tendem para zero. A verificação da convergência só é possível quando a equação diferencial tem solução exacta. Neste caso, a convergência pode ser testada utilizando malhas com resolução progressivamente maiores. Na maioria dos casos, recorre-se ao Teorema de Lax. Teorema de Lax: Estabilidade e consistência são condições necessárias e suficientes para a convergência de um sistema linear de equações. Na maioria dos casos o sistema de equações não é linear pelo que o teorema de Lax não pode ser aplicado rigorosamente. Neste caso, o teorema de Lax dá-nos condições necessárias, mas nem sempre suficientes, de convergência. 1.4.4.3 ESTABILIDADE Um esquema numérico é estável se os erros introduzidos numa iteração não se amplificam no decorrer do cálculo. Dos métodos tradicionais para testar a estabilidade destacam-se: método de von Neumann e método da matriz 5º Ano Eng. Ambiente 2 solução analítica da equação diferencia l solução numérica exacta dígitos infinitos solução numérica aproximada número finito de dígitos 1 erro de discretiza ção 2 erro de arredondam ento 1.4.5 MÉTODO DE VON NEUMAN Este método baseia-se no facto de qualquer função poder ser representada por uma série de Fourier. Para equações lineares de coeficientes constantes em meios infinitos, este método dá condições necessárias e suficientes de estabilidade, que se verificam desde que nenhuma das componentes de Fourier se amplifique durante o cálculo. Na prática os problemas envolvem não linearidades, coeficientes variáveis e condições fronteira complexas, pelo que este método só pode ser aplicado localmente e desprezando as não linearidades. Para esta situação mais geral, o método de von Neumann fornece condições necessárias, mas nem sempre suficientes, de estabilidade. No caso de equações algébricas lineares resultantes da discretização o erro satisfaz a mesma equação utilizada para . Também no caso de equações lineares as diferentes componentes da série de Fourier do erro, podem ser analisadas separadamente. Visto que se está a estudar uma solução numérica obtida por um cálculo discretizado numa malha, a série de Fourier está limitada por 2 modos extremos: 28 Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente Visto que para definir uma onda é necessário, no mínimo 2 pontos, o comprimento de onda máximo é 2x e o c.d.o. máximo é 2L, sendo L o comprimento do domínio. A equação (*) pode generalizar-se a um problema multidimensional. A série de Fourier do erro toma a forma: m m m n n 1 n n n 1 t ijk at e m it a t e Ik x a t e Ik ix a t e Ii n (*) n n n 1 I - 1 2 n com k n (nº de onda da componente n) kn 2 L n L L x n n k n x (ângulo de fase da componente n) n Para o nível temporal t+1 pode escrever-se uma equação idêntica m it 1 a t 1e Ii n 1 n n n 1 G t 1 n t n a a 1 n No caso de um sistema de equações, G representa a matriz de amplificação e a condição de estabilidade é então: i 1 i valores próprios da matriz G 5º Ano Eng. Ambiente Para além de permitir fazer uma análise de estabilidade (erro de amplitude), o método de von Neumann dá também informações sobre os erros de fase. O módulo de G é uma medida de amortecimento ou amplificação da solução (análise de estabilidade e o argumento de G dá-nos a realção entre a velocidade de fase numérica (Un) e teórica (U). Assim, para a componente n do erro pode-se escrever int An e I kn x wnt , pelo que o factor de amplificação vem G O método é estável se o factor de amplificação (pode ser um número complexo) for menor ou igual à unidade para qualquer componente n, ou seja I nxi ny j nzk n int 1 e Iw t t in n A razão entre a velocidade de fase numérica e teórica é: U n wn k n twn N U U Ukn x c n 2 C sendo arg G, C U t (nº de Courant) x ,N Regra geral verifica-se que quanto maior for o nº de Courant (C) e menor o nº de pontos por c.d.o. (N), maior será o erro de fase. Para a solução exacta todas as componentes de Fourier propagam-se com igual velocidade de fase, o que não acontece na solução 29 n x Modelos de Simulação Cap 1 – Modelos de Simulação em Ambiente numérica, onde a velocidade de fase varia com o c.d.o. e o nº de Courant. 1.4.6 MÉTODO DA MATRIZ Este método é menos popular que o anterior devido à sua complexidade mas tem, em relação ao Método de von Neumann, a vantagem de não ignorar as condições fronteira. Nesta técnica exprime-se na forma matricial o conjunto de equações discretizadas aplicadas ao erro. Em seguida determinam-se os valores próprios desta i 1 matriz e impõe-se . A condição de estabilidade que daqui decorre mostra em que situações o erro não se amplifica. 5º Ano Eng. Ambiente 30