XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 DIFERENTES TOPOLOGIAS DE REDES NEURAIS EM ASSIMILAÇÃO DE DADOS F. P. Härter, H. F. de Campos Velho Instituto Nacional de Pesquisas Espaciais – INPE Av. dos Astronautas, 1758 12227-010, São José dos Campos, SP, Brasil E-mail: [fabrício, haroldo]@lac.inpe.br RESUMO Aplica-se as técnicas de redes neurais para assimilar dados durante a integração do Modelo de Lorenz. São utilizados 2000 exemplos no treinamento nas redes Funções de Base Radial e Perceptron de Múltiplas Camadas. Apresenta-se experimentos onde observações são inseridas no modelo matemático com freqüência de 0,02 s e se investiga a qualidade do esquema de assimilação para diferentes arquiteturas destas redes neurais. 1 – INTRODUÇÃO Assimilação de dados é um importante tema de estudo em ciências atmosféricas. Pode-se definir assimilação de dados como o processo onde dados observacionais (ruidosos) são inseridos em modelos matemáticos imprecisos com o objetivo de melhorar a qualidade da previsão. Os métodos de assimilação contínua de dados podem ser classificados em determinísticos e probabilísticos. Métodos determinísticos incluem Relaxação Dinâmica, Método Variacional e Transformada de Laplace. Os probabilísticos por sua vez são Interpolação Ótima e Filtro de Kalman (FK), ver Daley (1991). Destaca-se o FK, que apresenta solução ótima quando o problema a ser resolvido é linear com forçante aleatória com distribuição gaussiana de densidade de probabilidade, porém o custo computacional desta técnica é alto. Como objetivo de resolver o problema do alto custo computacional do FK técnicas de Redes Neurais (RN) tem sido propostas ao problema de assimilação de dados. Em Nowosad et al. (2000a) foi testado o FK (na versão linear, estendida e adaptativa) e o método da Transformada de Laplace nos modelos de Lorenz (no seu estado caótico) e num modelo de água rasa 1D (DYNAMO); em Nowosad et al. (2000b) Redes Neurais tipo Perceptron de Múltiplas Camadas (RPMC) foram testadas em assimilação de dados para os modelos de Lorenz e Hénon no estado caótico. Aplicação de redes neurais em assimilação de dados para os modelos de Lorenz e DYNAMO são discutidos em Nowosad et al. (2000c, 2001). O FK, nas versões estendida e adaptativa, e o PMC mostraram-se boas técnicas para assimilação de dados nestes modelos conceituais, inclusive quando o sistema dinâmico é não-linear. A Transformada de Laplace, por sua vez, não apresentou bom resultado quando aplicada a sistemas não-lineares. Neste trabalho aplica-se as redes neurais Funções de Base Radial (RFBR) e RPMC ao modelo de Lorenz. São utilizados 2000 exemplos (ou padrões) no treinamento das redes. Apresenta-se experimentos onde observações são inseridas no modelo matemático com freqüência de 0,02 s e se investiga a qualidade do esquema de assimilação para diferentes arquiteturas destas RNs. Nas seções 2 apresenta-se respectivamente o modelo de Lorenz, uma descrição sumárias das RNs usadas neste trabalho e do FK. Os experimentos numéricos são descritos na seção 2.4. A seção 3 é reservada para resultados e discussão. Na seção 4 são feitos os comentários finais. 2 – METODOLOGIA A seguir, apresenta-se o modelo dinâmico usado para testar os resultados dos esquemas de assimilação, bem como as redes neurais RFBR, RPMC, FK e uma descrição dos Experimentos Numéricos. 3642 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 2.1 – MODELO DE LORENZ Opta-se por explorar o esquema de assimilação por RNs com o Modelo de Lorenz (Lorenz, 1963), por este ser caótico, ou seja, pequenas variações nas condições iniciais alteram fortemente a dinâmica da evolução do sistema. As equações do modelo de Lorenz são dX = −σ ( X − Y ) , dt (1) dY = RX − Y − XZ , dt (2) dZ = XY − bZ . dt (3) Este sistema foi integrado com o método de Euler previsor-corretor, com X 0 = 1,508870 , Y0 = −1,531271 , Z 0 = 25,460910 , ∆t = 0.001 , σ = 10 , b = 8 / 3 e R = 28 para que o sistema esteja em estado caótico. 2.2 – REDES NEURAIS RNs são modelos matemáticos úteis na execução de determinadas tarefas de aprendizagem, tais como, associação e reconhecimento de padrões, aproximação de funções, controle e filtragem (Haykin, 2001). A aplicação de uma RN é feita em duas fases, são elas: aprendizagem e ativação. A fase de aprendizagem, também conhecida como treinamento, consiste no processo de adaptação dos pesos sinápticos das conexões e dos níveis de limiar (viéses) dos neurônios em resposta às entradas. A ativação consiste no processo de receber uma entrada e produzir uma saída de acordo com a arquitetura final da rede. Rede Perceptron de Múltiplas Camadas A RPMC consiste de uma camada de entrada formada por padrões que serão apresentados a rede durante a fase de treinamento (também chamados de conjunto de unidades sensoriais ou nós de fonte), uma ou mais camadas escondidas de nós computacionais e uma camada de saída de nós computacionais. O sinal de entrada se propaga para frente através da rede, camada por camada. Segundo Haykin (2001), a RPMC tem três características distintas: 1) o modelo de cada neurônio da rede inclui uma função de ativação não-linear, sendo que esta função de ativação deve ser diferenciável em todos os pontos, 2) a rede contém uma ou mais camadas de neurônios ocultos. Estes neurônios ocultos capacitam a rede à aprender tarefas complexas extraindo progressivamente as características mais significativas dos padrões de entrada, 3) a rede exibe um alto grau de conectividade, determinada por suas sinapses. Redes Funções de Base Radial Girosi e Poggio (1990) baseados no teorema de Kolmogorov, (Kolmogorov, 1957), mostraram que uma rede com uma única camada oculta é capaz de aproximar com uma precisão pré-definida qualquer função contínua. A essência da prova de Girosi e Poggio é a seguinte: uma função contínua e limitada sobre um certo intervalo, pode ser considerada como uma superposição linear de gaussianas. Estas gaussianas por sua vez, podem ser implementadas na camada oculta da RN cuja função de ativação é uma sigmóide. A precisão da aproximação dependerá apenas do número de funções gaussianas, ou seja, do número de neurônios da camada oculta (Kovacs, 1996). 3643 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 Redes neurais representando funções sintonizadas em torno de uma região e cujas funções de ativação, implementadas nos neurônios da camada oculta, são funções gaussianas, denominam-se Redes Neurais de Função de Base Radial (RFBR). Do ponto de vista de uma RFBR, aprender é equivalente a encontrar uma superfície, em um espaço multidimensional que forneça o melhor ajuste para os dados de treinamento, com o critério de melhor ajuste sendo medido num sentido estatístico (Bennett, 1992). Tratando-se de redes neurais, dois pontos chaves no processo de aprendizagem precisam ser definidos: (i) qual o paradigma de aprendizado (supervisionado ou não-supervisionado); e, (ii) após definir-se o paradigma, define-se a regra de aprendizado, que é a regra segundo a qual os pesos sinápticos dos neurônios são ajustados passo a passo até o sistema atingir o estado estável. Neste trabalho, tanto a RFBR como a RPMC foram implementadas com aprendizado por erro-correção (também conhecido como algoritmo de retropropagação do erro ou Regra Delta de Widrow) e paradigma de aprendizado supervisionado. As redes são totalmente conectadas, apresentam uma camada de entrada, apenas uma camada escondida e a camada de saída. Na Figura-1 ilustra-se as redes implementadas neste artigo. Xij θ ∑ vj θ ϕ (v j ) ∑ ϕ (v j ) ∑ ϕ (v j ) ∑ vk ϕ (v k ) XRNi ϕ (v k ) YRNi ϕ (v k ) ZRNi Yij Zij ∑ vj vk XOij YOij ∑ vj vk ZOij Figura-1: Ilustração da Rede Neural aplicada nesse trabalho. A seguir resume-se o algoritmo de retropropagação, segundo Haykin (2001), utilizado no treinamento da RFBR e na RPMC. Ressalta-se que a implementação feita pelos autores deste trabalho apresenta algumas diferenças em relação ao algoritmo a seguir. Estas diferenças serão mencionadas na seção 2.4, onde os experimentos numéricos serão descritos. 1 - Iniciação: assumindo nenhuma informação prévia disponível, os pesos sinápticos e limiares são iniciados com valores que seguem uma distribuição uniforme. 2 - Apresentação dos exemplos de treinamento: apresenta-se uma época de exemplos de treinamento à rede. Para cada exemplo do conjunto de treinamento executa-se os passo 3 e 4 apresentados a seguir. 3 - Cálculo para Frente (Propagação): sendo um exemplo do conjunto de treinamento representado por ( x(n), d (n)) , com o vetor de entrada x(n) aplicado a camada de entrada de nós sensoriais e o vetor resposta desejada d (n) apresentado à camada de saída de nós computacionais, calcula-se os campos locais induzidos e os sinais funcionais camada por camada da rede. O campo local induzido v (jl ) (n) para o neurônio j na camada- l é 3644 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 m0 v (n) = ∑ θ (jil ) (n) y i(l −1) (n) (l ) j (4) i =0 onde y i( l −1) (n) é o sinal de saída do neurônio i na camada interior (l − 1) , na iteração n , e θ (jil ) (n) é o peso sináptico do neurônio j da camada l , que é alimentado pelo neurônio i da camada l − 1 . Para i = 0 , temos y o( l −1) (n) = +1 e θ (j l0) (n) = b (j l ) (n) é o viés aplicado ao neurônio j na camada l . O sinal de saída do neurônio j na camada l é y lj = ϕ j (v j (n)) . (5) Se o neurônio j está na primeira camada oculta (i.e., l = 1 ), faz-se y (jo ) (n) = x j (n) , x j (n) é o j -ésimo elemento do vetor de entrada X (n) . Se o neurônio j está na camada de saída (i.e., l = L onde L é denominado a profundidade da rede), se faz y (j L ) = o j (n) Calcula-se o sinal de erro e j ( n) = d j ( n) − o j ( n) (6) onde d j (n) é o j -ésimo elemento do vetor resposta desejada d (n) . 4 - Cálculo para Trás (Retropropagação): Calcula-se os gradientes locais da rede definidos por δ (j l ) (n) = e (j L ) (n)ϕ 'j (v (j L ) (n)) (7) para o neurônio j da camada de saída L , ou por δ (j L ) (n) = ϕ 'j (v (jl ) (n))∑ δ k(l +1) (n)θ kj(l +1) (n) (8) k para um neurônio j da camada oculta l , onde o apóstrofo em ϕ 'j (.) representa a diferenciação em relação ao argumento. Assim, ajusta-se os pesos sinápticos da rede na camada l de acordo com a regra delta generalizada: θ (jil ) (n + 1) = θ (jil ) (n) + α [θ (jil ) (n − 1)] + ηδ (j l ) (n) y i(l −1) (n) (9) onde η é a taxa de aprendizagem e α é a constante de momento. 5 - Iteração: repete-se os itens 3 e 4 , apresentando a rede novos exemplos de treinamento até que o critério de parada seja satisfeito. Observação: a ordem de apresentação dos exemplos de treinamento deve ser aleatória, de época para época. Os parâmetros de momento e a taxa de aprendizagem são ajustados com o número de iterações. 3645 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 2.3 – FILTRO DE KALMAN O FK é frequentemente usado em problemas de estimação e controle. Desde suas primeiras aplicações no domínio aeroespacial (Jazwinski, 1970), seu emprego vem se ampliando a outras áreas e ultimamente tem sido aplicado em meteorologia, oceanografia e hidrologia (Daley, 1991). A seguir faz-se uma breve descrição do FK, seguindo Jazwinski (1970). A Figura 1 mostra um diagrama esquemático do FK. 1. Previsão a partir do modelo f w n +1 = Fn w na Pnf+1 = Fn Pna FnT + Q n 4. Cálculo da matriz de covariância Pna+1 = [ I − G n +1 H n +1 ]Pnf+1 2. Cálculo do ganho de kalman Gn+1 = Pnf+1 H nT+1[Rn+1 + H n+1 Pnf+1 H nT+1 ]− 3. Cálculo da estimativa z nf+1 = H n +1 w nf+1 w na+1 = w nf+1 + G n +1 ( z n +1 − z nf+1 ) Figura 2 – Diagrama esquemático do FK Seja o modelo de previsão, onde o subescrito n refere-se aos instantes de tempo w n +1 = Fn w n + µ n (10) onde Fn é uma descrição matemática do sistema e µ n é uma forçante estocástica (chamada ruído de modelagem dinâmica). O modelo de observação é representado por zn = H n wn + υn (11) onde υ n é o ruído e H n representa o sistema de observação. As hipóteses típicas de gaussianidade, média zero e ortogonalidade para ruídos são adotadas. O estado w n +1 é estimada através da recursão w na+1 = ( I − G n +1 H n +1 ) Fn c na + G n +1 z n +1 (12) onde w na +1 é o estimador de w n +1 , G n é o ganho do filtro de Kalman, que é escolhido de modo a minimizar a variância do erro de estimação J n +1 , onde 3646 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 J n +1 = E{( w na+1 − w n +1 ) T ( w na+1 − w n +1 )} (13) O Algoritmo do Filtro de Kalman é mostrado na Figura 2, onde Q n é a covariância de µ n , Pnf é a covariância do erro de previsão, Rn é a covariância de υ n e Pna é a covariância do erro de estimação. A assimilação é feita através da amostragem: r (t n + ∆t ) = rn +1 ≡ z n +1 − z nf+1 = z n +1 − H n w nf+1 (14) 2.4 – DESCRIÇÃO DOS EXPERIMENTOS NUMÉRICOS Como mencionado anteriormente, o objetivo deste artigo é investigar o sistema de assimilação proposto para diferentes arquiteturas (RFBR e RPMC). Para cumprir estes objetivos se fez 10 experimentos, que podem ser separados em três fases distintas, são elas: geração dos exemplos de treinamento, treinamento propriamente dito e ativação. Na geração dos exemplos de treinamento o modelo de Lorenz é integrado por 150000 passos de integração (0,15 s), amostrados a cada 30 (0,003s), o que gera uma série com 5000 exemplos. Os exemplos 2001 à 4000 são utilizados na fase de treinamento das RNs e os últimos 1000 (4001 à 5000) são reservados para a fase de ativação. O fato das RNs serem ativadas com exemplos que não foram apresentados à rede na fase de treinamento, caracteriza a capacidade de generalização das redes. Conforme a Figura 1, a entrada das RNs são as matrizes normalizadas w = w ( X , Y , Z ) do sistema de Lorenz e z = z ( X 0 , Y0 , Z 0 ) é a matriz de observação. A saída desejada (alvo das RNs), por sua vez, é a matriz normalizado wa = wa ( X FK , YFK , Z FK ) , resultante da assimilação feita com o FK. As observações são simuladas adicinando-se ao Modelo de Lorenz ruído aleatório de variância 2. No algoritmo de erro-correção aplicado neste trabalho, os pesos sinápticos são iniciados com distribuição gaussina e os padrões de treinamento são apresentados na seqüência em que foram gerados pelo modelo numérico. As redes foram treinadas com taxa de aprendizagem constante igual 1x10-4, sem constante de momento. A diferença fundamental entre a RPMC e a RFBR é que a função de ativação da primeira é uma tangente hiperbólica, e da segunda é uma sigmóide. 3 – RESULTADOS E DISCUSSÃO Nesta seção se discute os resultados dos experimentos acima descritos. A apresentação destes resultados é feita em uma tabela que identificam os experimentos, sendo que os melhores resultados para cada classe de experimentos são explorados também em figuras. A RPMC com 15 neurônios não é explorada por que não convergiu para o erro de 4x10-4 durante o treinamento, sendo que se acrescentou o experimento onde se investiga a RPMC com 40 neurônios para se ter 5 experimentos com cada uma das RNs. O erro objetivo de 4x10-4 e a taxa de aprendizagem de 1x10-4 foram obtidos de maneira experimental. A soma do erro médio quadrático após a fase de ativação é calculado pela seguinte equação 1 1000 SEMQ = ∑ (w a − z) 1000 i =1 2 (12) Figura 3 ilustra a importância do sistema de observação, pois com se pode notar, na ausência de método de assimilação de dados, o modelo dinâmico (curva verde) afasta-se da observação (curva azul) à medida que o tempo 3647 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 passa. As linhas vermelha e preta representam respectivamente a assimilação pelo FK e pela RFBR com 15 neurônios para 2000 padrões de treinamento e observações inseridas a cada 0,02 s. A s s im ila ç ã o - O b s a c a d a 0 ,0 2 s 4 0 O R F M 3 0 b s F B R 5 n K o d e lo 2 0 X 1 0 0 -1 0 -2 0 -3 0 0 .1 0 .2 0 .3 0 .4 T e m p o 0 .5 0 .6 - s e g u n d o s 0 .7 0 .8 0 .9 1 Figura 3 – Evolução sem assimilação. A seguir apresenta-se a tabela relativa aos experimentos cujas RNs foram treinadas com 2000 exemplos para dados assimilados com freqüências 0,02 s com as seguintes arquiteturas: RFBR com 5, 10, 15, 20 e 40 neurônios; RPMC com 5, 10, 20, 30 e 40 neurônios. Tabela 2 EXP1 EXP2 EXP3 EXP4 EXP5 Rede Erro Erro Ativação Épocas Treinamento Treinamento 5 10 15 20 30 0.0005-0.0 0.0004 0.3732-0.0 0.0004 0.0004 13.7661 22.9260 4.5001 11.4446 11.0793 32433 13602 32293 12867 14239 RPMC 5 RPMC 10 RPMC 20 RPMC 30 RPMC 40 Erro do Filtro de Kalman: 5.7633 0.0013-0.0 0.0009-0.0 0.0007-0.0 0.0004-0.0 0.0004 68.7241 17.9347 11.6016 6.3114 18.5837 32433 32363 32223 32083 19788 EXP6 EXP7 EXP8 EXP9 EXP10 RFBR RFBR RFBR RFBR RFBR Neurônios A tabela acima mostra que, com exceção dos EXP-2-4-5-10, os erros durante a fase de treinamento diminuem abruptamente à zero. Mostra também que os experimentos seguem o seguinte comportamento quanto ao número de épocas de treinamento: para 5 neurônios a RFBR é treinada com 32433 épocas, para 10 neurônios diminui para 13602 épocas e para 15 neurônios a RFBR passa a ser treinada com 32293 épocas. Para 20 e 30 neurônios a RFBR é treinada com 12867 e 14239 épocas. As RPMC são treinadas com aproximadamente 32000 épocas de treinamento com exceção do EXP10, que é treinada com 19788 épocas. Observa-se que a saturação acontece com 15 neurônios para a RFBR e 30 neurônios para a RPMC, ou seja, estas são as arquiteturas que apresentam os melhores resultados. Entende-se por melhor resultado o experimento que apresenta menor SEMQ após a fase de ativação. O resultado da RFBR com 5 neurônios foi 80 % melhor do que a RMPC com a mesma configuração. Ao se comparar as redes configuradas com 10 neurônios, constata-se que a RPMC foi 21,8 % melhor, porém exigiu um número bem menor de épocas de treinamento. Com 15 neurônios a SEMQ da RMPC divergiu, não mostrada neste texto. Para 20 neurônios as redes tiveram praticamente o mesmo desempenho quanto a SEMQ, porém mais uma 3648 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 vez a RFBR exigiu um número bem menor de épocas de treinamento. Com 30 neurônios, melhor resultado da RPMC, a RFBR apresentou um erro 44,66 % maior. As Figuras 4-5 ilustram respectivamente os melhores resultados das RFBR (15 neurônios) e RPMC (30 neurônios) e as Figuras 5-6 ilustram os piores resultados da RFBR (10 neurônios) e RPMC (5 neurônios). A s s im ila ç ã o - O b s a c a d a 0 ,0 2 s O b s R F B R 1 5 n F K 2 0 1 0 X 0 -1 0 -2 0 -3 0 0 .1 0 .2 0 .3 0 .4 T e m p o 0 .5 0 .6 - s e g u n d o s 0 .7 0 .8 0 .9 1 Figura 4 – Rede Funções de Base Radial com 15 neurônios. A s s im ila ç ã o - O b s a c a d a 0 ,0 2 s O b s R P M C 3 0 n F K 2 0 1 0 X 0 -1 0 -2 0 -3 0 0 .1 0 .2 0 .3 0 .4 T e m p o 0 .5 0 .6 - s e g u n d o s 0 .7 0 .8 0 .9 1 Figura 5 –Rede Perceptron de Múltiplas Camadas com 30 neurônios. Observa-se nas figuras acima, que a tanto a assimilação por RNs (linha preta ) como a assimilação por FK (linha vermelha) seguem a observação (linha azul). Apenas pelas figuras não é possível identificar qual das duas redes resultou em menor SEMQ. Porém, pela Tabela 1 conclui-se que melhor resultado da RFBR (15 neurônios, EXP3) resulta na SEMQ 28,7 % menor do que o melhor resultado da RPMC (30 neurônios, EXP9). 3649 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 A s s im ila ç ã o - O b s a c a d a 0 ,0 2 s O b s R F B R 1 0 n F K 2 0 1 0 X 0 -1 0 -2 0 -3 0 0 .1 0 .2 0 .3 0 .4 T e m p o 0 .5 0 .6 - s e g u n d o s 0 .7 0 .8 0 .9 1 Figura 6 – Rede Funções de Base Radial com 10 neurônios. A s s im ila ç ã o - O b s a c a d a 0 ,0 2 s O b s R P M 5 n F K 2 0 1 0 X 0 -1 0 -2 0 -3 0 0 .1 0 .2 0 .3 0 .4 T e m p o 0 .5 0 .6 - s e g u n d o s 0 .7 0 .8 0 .9 1 Figura 7 –Rede Perceptron de Múltiplas Camadas com 30 neurônios. A Figura 6 revela que o pior resultado com a RFBR, arquitetura com 10 neurônios, falha mais em amplitude do que em fase, ao passo que o pior resultado da RPMC, arquitetura com 5 neurônios, falha tanto em amplitude como em fase. 4 – COMENTÁRIOS FINAIS Conclui-se através dos experimentos apresentados, que a metodologia de assimilação de dados por RNs é uma alternativa promissora e merece maior investigação. Para os testes feitos como o modelo conceitualmente simples apresentado na seção 2, conclui-se que as RFBR e RPMC são algoritmos eficientes quando aplicados a problemas de assimilação de dados. A arquitetura que resultou na assimilação de melhor qualidade segundo o critério médio quadrático foi 15 neurônios para a RFBR e 30 neurônios para a RPMC. Ao se treinar a redes com 2000 padrões de treinamento obteve-se bons resultados, pelo menos para o problema apresentado e resolvido neste trabalho. Porém, num próximo trabalho pretende-se investigar o comportamento das redes quanto treinadas com conjuntos de treinamento maiores e menores, ou seja, pretende-se procurar um número de padrões de treinamento ótimo. Outra investigação de interesse é quanto à freqüência com que as observações são inseridas no modelo dinâmico, ou seja, pretende-se testar o esquema de assimilação por RNs quando as observações forem melhor e pior amostradas temporalmente. Outra análise importante é quanto a amostragem espacial das observações, porém este aspecto será explorado com o modelo de Água Rasa, pois exige que o modelo seja discretizado no espaço. 3650 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 Uma inovação importante nesta metodologia, deixada para trabalhos futuros, é emular o FK através das técnicas de RNs. Para isto, pretende-se usar redes recorrentes, ou seja, redes nas quais, durante a fase de treinamento, o vetor de saída da rede neural passa a ser utilizado como vetor de entrada na iteração posterior. Este procedimento caracteriza a inserção de memória no sistema. Outra característica importante das RNs è o fato de que seus algoritmos podem ser paralelizados, além de poderem ser implementados em neurocomputadores. Referências Bibliográficas BENNET, A. F. Inverse Methods in Physical Oceanography, Cambridge University Press, 1992. DALEY, R. Atmospheric Data Analysis, Cambridge University Press, Cambridge, 1991. GIROSI, F., POGGIO, T. Networks and the best approximation property. Biological Cibernetic, p.169-176. 1990. HAYKIN, S. Redes Neurais: Princípios e prática, 2a ed, Bookman, Porto Alegre, 2001. JAZWINSKI, A. Stochastic Processes and Filtering Theory, Academic Press, New York and London, 1970. KOLMOGOROV, A. On Representation of Continuous Functions. Dokl. Acad. Nauk. URSS, 114. 1957. KOVACS, Z. Redes Neurais Artificiais: Princípios e Aplicações, Collegium Cógnitio, Rio de Janeiro Brasil, 1996. LORENZ, E. Deterministic Nonperiodic Flow. Journal of Atmospheric Sciences, p. 130/141. 1963. NOWOSAD, A; RIOS NETO, A; CAMPOS VELHO, H. F. de. Data Assimilation Using an Adaptative Kalman Filter and Laplace Transform. Hybrid Methods in Engineering, 2(3), 291-310. 2000a. NOWOSAD, A; RIOS NETO, A; CAMPOS VELHO, H. F. de. Data Assimilation in Chaotic Dynamics Using Neural Networks. In: International Conference on Nonlinear Dynamics, Chaos, Control and Their Applications in Engineering Sciences, Campos do Jordão. 2000b. Proceedings. Rio de Janeiro: Associação Brasileira de Ciências Mecânica, p. 212/221. NOWOSAD, A.; CAMPOS VELHO, H. F. de; RIOS NETO, A. Neural Network as a New Approach for Data Assimilation. In: A Meteorologia Brasileira Além do Ano 2000b: XI Congresso Brasileiro de Meteorologia, Campos do Jordão, SP, p. 3078/3086. 2000c. NOWOSAD, A.; CAMPOS VELHO, H. F. de; RIOS NETO, A. (2001): Neural Network as a New Approach for Data Assimilation, Monthly Weather Review, 2001 (submetido). 3651 XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002 3652