The American Economic Review, vol LIX, nº5, dez 1969, pp.817-831. UMA INTERPRETAÇÃO ECONÔMICA DA TEORIA DO CONTROLE ÓTIMO Tradução : Alexandre Stamford Robert Dorfman* A teoria do Capital é a economia do tempo. Sua tarefa é explicar se, e porque, um instrumento de produção durável terá uma maior contribuição ao valor do produto, durante seu tempo de vida útil, do que os custos para produzi-lo ou adquiri-lo. Ou seja, ela deduz conclusões normativas e descritivas sobre o curso temporal da acumulação de capital por unidades econômicas e da economia como um todo. Tradicionalmente, a teoria do capital, como todos os ramos da economia, era estudada no contexto de equilíbrios estacionários. Por exemplo, tanto a condição de equilíbrio estacionário dos economistas clássicos como o equilíbrio do período de produção da teoria de Böhm-Bawerk, descrevem situações nas quais promover a acumulação de capital não vale a pena. Um modelo de análise que é tão limitado não é apropriado para se entender acumulação de capital e crescimento,1 mas nenhuma outra técnica parecia disponível na história da teoria do capital. Nos cinco últimos anos tem-se percebido, sem muita definição, que a teoria do capital é formalmente um problema em cálculo das variações.2 Mas o cálculo das variações é considerado um assunto muito áspero por muitos economistas e, além disso, suas formulações convencionais parecem muito rígidas para serem aplicadas em muitos problemas econômicos. A aplicação dessa ferramenta conceitual à teoria do capital permaneceu superficial e esporádica até muito recentemente, e a teoria do capital permanece presa pelas limitações dos equilíbrios estáticos. * O autor é Professor da Universidade de Harvard 817 1 Um apontamento mais rigoroso é feito por Joan Robinson em [9] e em outros lugares. 2 Exemplos notáveis são Hotelling [6] e Ramsey [8]. Tudo isso foi mudado abruptamente na década passada como resultado da reapresentação, ou reorientação, do cálculo das variações, que surgiu em grande parte pelas exigências impostas pela tecnologia espacial.3 Na sua versão moderna, o cálculo das variações é chamado de teoria do controle ótimo. Ela tornou-se, merecidamente, a ferramenta central da teoria do capital e tem dado a última uma nova vida. Como resultado, a teoria do capital transformou-se tão profundamente, que rebatizaram-na de teoria do crescimento, ela trouxe numerosos e importantes resultados práticos e teóricos que antes não poderiam ser formulados. A tese principal desse paper é que a teoria do controle ótimo é formalmente idêntica a teoria do capital, e que seus principais procedimentos podem ser atingidos por argumentação estritamente econômica. Essa tese será sustentada pela obtenção do principal teorema da teoria do controle ótimo, chamado o princípio do máximo, por meios de análises econômicas. I. A Equação Básica Para termos um vocabulário concreto, considere o problema de decisão de uma firma que deseja maximizar seus lucros totais em algum período de tempo. Em uma data t, essa firma terá herdado um certo estoque de capital e outras condições de seu comportamento passado. Denote isso por k ( t ) .Com esse estoque de capital, e outras The American Economic Review, vol LIX, nº5, dez 1969, pp.817-831. facilidades k, e para aquela data particular t, a firma está 3 A duas fontes do novo cálculo das variações são R. Bellman [4] e L.S. Pontryagin, et al. [7]. Bellman enfatizou primeiramente as implicações de seus trabalhos para economia. 818 DORFMAN : TEORIA DO CONTROLE ÓTIMO em posição para tomar algumas decisões que podem dizer respeito a taxa de produção, preço de produção, design de produtos, ou outras coisas mais. Denote as decisões feitas em alguma data por x(t). Do estoque de capital herdado na data especificada junto com as decisões atuais, a firma obtém uma certa taxa de benefícios ou um conjunto de lucros por unidade de tempo. Denote isso por u( k(t),x(t), t).4 Essa função u determina a taxa a qual os lucros estão sendo ganhos no tempo t como resultado de se ter k e de se fazer as decisões x. Olhe agora para a situação futura como se ela estivesse na data inicial t = 0. O total de lucros que serão ganhos nessa época para alguma data final T é dado por: T W (k 0 , x ) u ( k , x, t ) dt 0 que é simplesmente a soma da taxa a qual o lucro está sendo ganho a todo instante descontada para a data inicial (se desejado) e somada para todos os instantes.5 Nessa notação, x não simboliza um número ordinário mas um curso temporal inteiro de variáveis de decisão x da data inicial até T. Essa notação afirma que se a firma começa com um montante inicial de capital k0 e então segue a política de decisões denotada por x , ela obterá um resultado total, W, que é a integral (a soma contínua) dos resultados obtidos a cada instante; esses resultados dependem da data no instante pertinente, do estoque de capital da época e da decisão aplicada naquele momento. A firma tem liberdade, dentro de certos limites, de escolher o curso temporal da variável de decisão x mas ela não pode, independentemente, escolher o montante de capital a cada instante; que é uma conseqüência do capital na data inicial e do curso temporal escolhido para as variáveis de 818 4 No resultado nós podemos muitas vezes omitir o argumento – tempo em pró da simplificação, e assim escrever simplesmente u( k, x, t ). 5 O argumento t permite a introdução de alguma fórmula de desconto que deve ser apropriada. de decisão. Essa restrição é expressa dizendo-se que a taxa de variação do estoque de capital num instante qualquer é uma função de sua posição atual, da data, e das decisões tomadas. Simbolicamente:6 (1) dk k f ( k , x, t ) . dt Assim as decisões feitas num tempo qualquer tem dois efeitos. Elas influenciam a taxa a qual os lucros são ganhos naquele tempo e também a taxa a qual o estoque de capital está mudando e assim o estoque de capital que estará disponível no instante de tempo subsequente. Essas duas fórmulas expressam a essência do problema de se tomar decisões num contexto dinâmico. O problema é selecionar o curso temporal simbolizado por x , assim como também, fazer o valor total do resultado, W, tão grande quanto possível levando em conta o efeito da escolha de x nas taxas instantâneas de lucro e estoque de capital que serão transportadas para o futuro. Esse é verdadeiramente um problema difícil, e não apenas para principiantes. A dificuldade essencial é que todo um curso temporal, de algumas variáveis, tem que ser escolhido. O cálculo elementar ensina como selecionar o número mais adequado possível e atribuí-lo a uma única variável, ou os números mais oportunos para mais de uma variável, diferenciando alguma função e estabelecendo as derivadas parciais iguais a zero. Mas selecionar um curso temporal mais adequado é uma matéria inteiramente diferente e conduz a algumas técnicas matemáticas muito avançadas. A estratégia da solução é reduzir o problema que, como colocado, nos exige achar todo um curso temporal, para um problema que nos requeira DORFMAN : TEORIA DO CONTROLE ÓTIMO apenas determinar um único número (ou alguns números), e isso nós sabemos como fazer pelo cálculo normal. 6 O ponto será usado freqüentemente para denotar uma taxa de variação com respeito ao tempo. Essa transformação do problema pode ser feita de várias maneiras. Uma maneira, que data do século dezoito, conduz ao cálculo das variações clássico. Outra maneira, que será seguida aqui, conduz ao princípio do máximo da teoria do controle ótimo. Esse método depende muito da introdução de uma notação apropriada. Primeiro, introduz-se uma fórmula para o valor que pode ser obtido pela firma começando de uma data t arbitrária com algum montante de capital k e seguindo uma política de decisão x arbitrária até uma data final. A fórmula é: T W (k t , x, t ) u [ k , x, ] d t que, de certo, é uma generalização da fórmula de W introduzida previamente. Agora divide-se W em duas partes. Pense em um intervalo de tempo curto de tamanho começando no tempo t. É para se pensar em como sendo tão pequeno que a firma não mudaria x no decorrer dele, mesmo se ela pudesse. Então nós podemos escrever: (2) W (k , x, t ) u (k , xt , t ) T u [k (t ), x, ]d t Essa fórmula diz que se o montante de capital disponível no tempo t é k e se a política denotada por x é seguida nesse tempo, então o valor de contribuição a soma total, na data t, consiste de duas partes. A primeira parte é a contribuição do pequeno intervalo que começa na data t. Ela é a taxa a qual os lucros são ganhos durante o intervalo vezes o tamanho do intervalo. Ela depende do estoque de capital atual, da data, e do valor presente da variável de decisão, denotada aqui por xt. A 819 segunda parte é uma integral da mesma forma que a anterior mas começando na data t + . Deve-se notar que o capital inicial nessa data para essa última integral não é k(t) mas k(t+). Esse fato, de que o estoque de capital mudará durante o intervalo da maneira como é influenciado por xt , terá um papel muito significante. Nós podemos tirar vantagem do fato de que a forma da integral é a mesma rescrevendo a fórmula como: W ( k , x , t ) u ( k , x t , t ) W ( k t , x , t ) onde as mudanças nos subscritos são feitas cuidadosamente. Agora, mais algumas notações. Se a firma conhecesse a melhor escolha de x da data t em diante, ela poderia segui-la e assim obter um valor seguro. Nós denotamos esse valor, que resulta da escolha ótima de x , por V*, da seguinte forma: V *(k t ,t) max W ( kt , x , t ) . Note que V* não tem x como argumento. Isso porque x já foi maximizado. O valor máximo que pode ser obtido começando na data t com o capital k não depende de x mas é o valor que pode ser obtido com as condições da melhor escolha possível de x . Agora suponha que a política designada por xt é seguida no intervalo curto de tempo, de t até t+, e que depois disso a melhor política possível é seguida. Pela fórmula (2) a conseqüência dessa política peculiar pode ser escrita como V(k t ,x t ,t) u(k t ,x t , t ) V * (k t ,t ) . Em palavras, isso significa que, os resultados de seguir tal política são os benefícios que advêm do período inicial usando a decisão xt , mais o máximo lucro possível que pode ser realizado começando-se da data t+, com o capital k(t+) que resulta da decisão feita no período inicial. DORFMAN : TEORIA DO CONTROLE ÓTIMO Agora nós chegamos a um problema de cálculo comum de achar o melhor valor possível para xt. Se a firma adota esse valor, então o V da última fórmula será igual a V*. O cálculo nos ensina que, freqüentemente, uma maneira efetiva de se descobrir um valor de uma variável que maximiza uma dada função é diferenciar a função com respeito a variável e igualar a derivada parcial a zero. Esse é o método que nós deveríamos usar. Mas primeiro nós deveremos tomar alguns cuidados pois esse método não é infalível. É completamente possível que as derivadas parciais anulem-se quando a função não está maximizada (por exemplo, elas podem se anular quando a função é minimizada, ou ainda num turn-point), e não é raro que as derivadas parciais difiram de zero no máximo. Nós retornaremos a esses inconvenientes mais tarde. Por enquanto, nós assumiremos que as derivadas parciais anulam-se no máximo, diferenciando V(kt , xt ,t) com respeito a xt , obtém-se (3) taxa de mudança do capital durante o intervalo de tempo vezes o tamanho do intervalo. Relembrando a fórmula (1), k depende de xt : k f ( k , xt ,t ) . Assim nós podemos escrever k ( t ) f . xt xt Retornando, agora, para o primeiro fator, V * k . Essa derivada é a taxa a qual o máximo fluxo de lucro possível no tempo t+ muda com respeito ao montante de capital disponível em t+. Ela é, então, o valor marginal do capital no tempo t+; ou o montante pelo qual, ocorrendo um incremento de uma unidade de capital nesse tempo, o máximo valor possível de W crescerá. Nós denotamos o valor marginal do capital no tempo t por (t), definido por * u(k,xt , t ) V (k ( t ),t ) 0 . x t x t O incômodo com essa fórmula, sem falar do fato que a função V* é ainda desconhecida, é que nós dissemos para diferenciar V* com respeito a xt , que não envolve xt explicitamente. Para fugir disso, note que k ( t ) V * V * . xt k ( t ) x t 820 V * ( k ,t ) ( t ) . k Inserindo esse resultados na fórmula (3), nós obtemos (4) f u ( t ) 0. x t xt Ambas as expressões merecem uma análise e nós devemos começar com a segunda. Desde que nós estamos tratando com um curto período de tempo nós podemos usar a aproximação e além disso, a constante pode ser cancelada. Nós temos mais uma simplificação a fazer antes de chegarmos a nossa primeira conclusão importante. O valor marginal do capital muda gradualmente com o tempo e assim, para uma aproximação suficientemente boa, k ( t ) k ( t ) k . ( t ) ( t ) ( t ) . Isso é, o montante de capital no tempo t+ é igual ao montante de capital no tempo t mais a DORFMAN : TEORIA DO CONTROLE ÓTIMO Isso é, o valor marginal do capital em t+ é o valor marginal em t mais a taxa a qual ele está mudando durante o intervalo vezes o tamanho do intervalo. Inserindo essa expressão na equação (4), após cancelar o valor comum , obtém-se f f u ( t ) ( t ) 0. x t x t x t Agora faz-se aproximar-se de zero. O Terceiro termo torna-se muito pequeno em comparação com os outros dois. Desprezandoo, resulta (5) f u ( t ) 0. x t x t Esse é o nosso primeiro grande resultado e constitui-se em metade do princípio do máximo. Ele tem um sentido perfeitamente válido para um economista. Ele diz que, ao longo do curso ótimo da variável de decisão, num tempo qualquer, o efeito marginal de curto prazo de uma mudança na decisão é contra balanceado exatamente pelo efeito daquela decisão no valor total do estoque de capital um instante depois. Nós entendemos que o segundo termo na equação é o efeito marginal da decisão atual na taxa de crescimento de capital com o capital valorado pelo seu valor marginal, . O valor de x, que a firma deve escolher a todo instante, deve ser de tal maneira que o ganho marginal imediato seja exatamente igual ao custo de longo prazo, que é medido pelo valor do capital multiplicado pelo efeito da decisão na acumulação de capital. Agora suponha que xt é determinado de tal maneira que satisfaça a equação (5). Na hipótese de que esse procedimento revela o valor ótimo de xt , V(kt , xt,,t) deverá então ser igual a seu valor máximo possível ou V*(k, t). Assim, 821 V * (k,,t) u(k,xt , t ) V * (k ( t ),t ) . Agora diferencia-se essa expressão em relação a k. A derivada do lado esquerdo é, por definição, (t). A derivação do lado direito é muito similar ao que nós já fizemos anteriormente e segue-se que: u * V (k ( t ),t ) k k u k ( t ) ( t ) k k ( t ) f u 1 ( ) k k f f 2 u k k k Nós podemos ignorar o termo em 2 e fazer os cancelamentos óbvios para obter (6) f u . k k Essa é a segunda maior fórmula do princípio do máximo e possui uma interpretação econômica esclarecedora. Para um matemático, é a taxa a qual o valor de uma unidade do capital está mudando. Para um economista, ela é a taxa a qual o capital está se valorizando. - é portanto a taxa a qual uma unidade de capital está se depreciando no tempo t. Consequentemente a fórmula afirma que quando o curso temporal ótimo de acumulação de capital é seguido, a queda em valor de uma unidade de capital num pequeno intervalo de tempo é a soma de sua contribuição para os lucros realizados durante o intervalo com sua contribuição para aumentar o valor do estoque de capital até o fim do intervalo. Em outras palavras, uma unidade de capital perde valor ou deprecia-se com o passar do tempo por uma DORFMAN : TEORIA DO CONTROLE ÓTIMO taxa a qual sua contribuição potencial para os lucros torna-se sua contribuição passada. Esse achado é remanescente da figura de linguagem empregada pelos teóricos do capital no século dezenove. Eles diziam que um bem de capital incorporava um certo montante de valor que ele emprestava gradualmente aos bens que eram feitos com a sua ajuda. Que é exatamente o que está funcionando aqui. Cada unidade de bem de capital está gradualmente decrescendo em valor a precisamente a mesma taxa a qual ela está dando acréscimo aos produtos que têm valor, a cada bem vendido ou armazenado para o futuro em capital acumulado. Nós podemos também interpretar - como a perda que deve ser incorrida se a aquisição de uma unidade de capital foi adiada por um curto período. II. O Princípio do Máximo Fomos conduzidos a construir então uma função auxiliar ou Hamiltoniana H u(k,x, t ) ( t ) f(k , x , ,t) , e obter sua derivada parcial com respeito a x, e fazê-la igual a zero, isso é, maximizá-la. Essa construção tem uma significância econômica substancial. Se nós imaginarmos H multiplicado por , nós podemos ver que ele é a soma dos lucros totais obtidos no intervalo mais o acumulado de capital durante esse intervalo, valorado por seu valor marginal. H é assim a contribuição total das atividades executadas no intervalo , incluindo tanto sua contribuição direta a integral de W, quanto o valor do capital acumulado durante o intervalo. Naturalmente, então, a variável de decisão x durante o intervalo corrente deve ser escolhida de maneira a fazer H tão grande quanto possível. É por essa razão que o procedimento que nós estamos descrevendo é chamado de princípio do máximo. Uma maneira simples, e freqüentemente efetiva de se fazer isso, é escolher um valor da variável 822 de controle para o qual a derivada parcial se anule, como nós fizemos antes. Em adição, nós também teremos que fazer a derivada parcial de H com relação a k e igualar essa a - . O sentido dessa operação pode ser melhor visualizado de um Hamiltoniano modificado, d k dt u(k,x, t ) k k H * u(k,x, t ) H* é a soma dos lucros realizados durante um intervalo de comprimento e o acréscimo no valor do estoque de capital durante o intervalo, ou em outro sentido, o valor da contribuição total das atividades durante o intervalo para os lucros presentes e futuros.7Se nós maximizarmos formalmente H* com respeito a x e k nós obteremos: u x u k f 0 x f 0, k que são as equações (5) e (6). Na verdade, a firma não pode maximizar H* com respeito a k desde que k não é uma variável sujeita a escolha. Mas agora nós vemos que as equações (5) e (6) aconselham a firma a escolher o curso temporal de x e de tal forma que os valores resultantes de k são os únicos que ela escolheria, se ela puder fazer isso, para ter a soma dos lucros e o incremento no valor do capital tão grande quanto possível em cada pequeno intervalo de tempo. Como nota técnica, a respeito da diferenciação de H, o valor marginal não é considerado como uma função de x e k, mas como um curso temporal separado que deve ser determinado otimamente. Agora temos diante de nós a idéia do princípio do máximo. Existe naturalmente DORFMAN : TEORIA DO CONTROLE ÓTIMO muito mais no método que essas duas fórmulas. Uma boa quantidade de elaboração matemática é requerida antes que as duas fórmulas possam ser interpretadas, e nós indicaremos depois algumas das complicações que podem surgir. Mas existe uma característica adicional que tem que ser mencionada antes de nós finalizarmos o tratamento dos fundamentos. Isso diz respeito a condições de fronteira; por exemplo, o montante de capital disponível no início do período planejado e o montante requerido para se ter na data final. Para ver como essa limitação nos dados afeta a solução do problema, considere agora 7 H* difere de H porque inclui ganhos de capital a maneira como as três fórmulas básicas operam. Elas são: (I) k f ( k , x , t ) (II) f u 0 x x f u k k (III) A primeira delas é parte dos dados do problema. Ela especifica como o capital cresce a ca-da instante como o resultado de sua posição atual e das escolhas feitas. As outras duas fórmulas são os resultados principais do princípio do máximo. A fórmula (II) diz que a variável de escolha a cada instante deverá ser selecionada de tal maneira que os ganhos marginais imediatos fiquem em equilíbrio com o valor da contribuição para a acumulação do capital. A fórmula (III) diz que o capital se deprecia a mesma taxa que ele contribui para os produtos úteis. As três fórmulas são convenientemente escritas e relembradas em termos do Hamiltoniano. Nessa forma elas são: (I’) H k (II’’) (III’’’) 823 H 0 x H . k Note o papel recíproco que k e têm nessas equações. A derivada parcial de H com respeito a cada um é simplesmente relacionada a derivada em relação ao tempo do outro. Essas três fórmulas em conjunto determinam completamente os cursos temporais da variável de escolha (decisão), do estoque de capital e do valor do capital. Nós começaríamos no tempo zero com um certo estoque de capital. Agora olhe para a fórmula (II) escrita mais explicitamente: (II) u( k , x , t ) ( t ) f ( k , x,t ) 0 . x x Com k e conhecidos, essa fórmula determina o valor de x, a variável de decisão.8Colocando esse valor na fórmula (I) nós obtemos k , a taxa a qual o estoque de capital está mudando. Colocando ele na fórmula (III) nós obtemos similarmente a taxa a qual o valor de uma unidade de capital está mudando. Assim nós conhecemos o estoque de capital e o valor de uma unidade de capital um curto período de tempo depois. Usando esses novos valores, nós podemos repetir nossas substituições nas três fórmulas e assim achar, sucessivamente, um novo valor para a variável de escolha, uma nova taxa para mudança no estoque de capital e uma nova taxa para a mudança no valor do capital. Repetindo esse ciclo novamente repetidas vezes, nós podemos traçar a evolução de todas as variáveis do tempo zero até o tempo T. Em resumo, essas três fórmulas, trabalhando juntas, determinam os cursos ótimos de todas as variáveis começando de DORFMAN : TEORIA DO CONTROLE ÓTIMO alguma posição inicial dada. Em outro sentido, então, o problema da escolha de um curso ótimo foi reduzido a um problema muito simples, o problema de escolher um valor inicial ótimo para o valor de uma unidade de capital. Isso não é de modo algum um problema fácil, mas obviamente é mais fácil que achar todo um curso ótimo sem a ajuda dessas fórmulas. III. As Condições de Contorno Nós podemos agora mencionar o papel das condições de contorno. Elas são de dois tipos. A condição inicial descreve o estado da firma ou da economia para a data inicial, t =0. 8 Algumas complicações matemáticas surgem aqui. Nós assumimos que com k, e t dados, a fórmula (II) é satisfeita por um único valor de x. Em particular ela estabelece o estoque inicial de capital. As condições finais prescrevem os valores de algumas, ou de todas, as variáveis na data final, t = T. Por exemplo, o problema pode requerer que a firma tenha em mãos pelo menos algum estoque de capital especificado, digamos K , para a data final, que pode ser imposto incluindo k( T ) K nas condições do problema. Ou, novamente, se o problema é estritamente de maximização de lucros durante um intervalo finito, 0 a T, é claro que o capital em mãos no tempo T não pode contribuir para esse objetivo; sua existência é muito tardia para ter alguma serventia em T. Tal problema faz surgir a condição final ( T ) 0 . Agora nós vimos que as três equações (I), (II), (III) juntas determinam toda evolução de x, k e , uma vez que os valores iniciais foram preestabelecidos. Em particular, elas determinam os valores finais. Nós temos apenas 9 que determinar um conjunto de valores iniciais que conduzem a valores finais aceitáveis para encontrar um curso temporal completo que satisfaça as condições necessárias de otimalidade. No nosso exemplo, como o estoque de capital é dado, o 824 valor inicial crítico a se determinar é ( 0 ) , o valor marginal do capital no tempo inicial. As três fórmulas básicas, aparentemente abstratas, de fato constituem uma solução construtiva para o problema da escolha de um curso temporal ótimo. Elas são uma solução, a princípio, do problema da acumulação de capital ótima. Nós agora encontramos que a velha técnica adaptada de equações marginais, usada com pouca ingenuidade, conduz ao princípio do máximo, que é o teorema fundamental da teoria do controle ótimo. IV. Um Exemplo Um conhecido e simples exemplo da aplicação desse princípio a um problema econômico 9 Apenas! Reputações foram construídas para resolver esse problema em importantes instâncias. é a obtenção do curso temporal socialmente ótimo da acumulação de capital para uma economia de um setor com um crescimento populacional exponencial e uma produção com retornos constantes de escala.10 Vamos estabelecer a seguir alguma notação e dados. N(t) é a população na data t. Como a população cresce exponencialmente, à taxa n, digamos, N ( t ) N ( 0 )e nt . Ela adquirirá menos desordem se nós assumirmos N(0) = 1 (medido em centenas de milhões de pessoas). Denote o consumo per capta por c e a utilidade desfrutada por uma pessoa consumindo à taxa c por u(c). A utilidade total desfrutada por todas as pessoas vivas no tempo t com consumo per capta à taxa c é e nt u( c ) . Seja a taxa social de preferência temporal (isso é, a taxa de desconto). DORFMAN : TEORIA DO CONTROLE ÓTIMO Então a importância no tempo 0 do consumo realizado no tempo t é (7) e t e u( c ) e nt ( n )t Finalmente, elimina-se K notando-se que: d K K K N k dt N N K N K k n Nk f ( k ) c k nk u( c ) . O objetivo social defendido para uma sociedade com horizonte de tempo T (concebidamente infinito) é maximizar (9) f ( k ) c ( n )k . T (8) W e ( n )t u( c )dt , 0 ou a soma das utilidades desfrutadas entre 0 e T.11 O consumo é limitado pelo produto e o produto pelo estoque de capital. Denote K(t) como o estoque de capital na data t e As equações (8) e (9) constituem nosso exemplo simples. A equação (9) é um exemplo da equação (I). Para obter a equação (II), diferencie as equação (7) e (9) com respeito a variável de decisão, c: ( n )t e u( c ) e ( n )t u' ( c ) . c 10 Uma discussão extensiva de um modelo muito similar pode ser achado em Arrow [1]. 11 É melhor assumir > n ou a integral será infinita para T = . k(t)=K(t)/N(t) como capital per capta. Em virtude dos retornos constantes de escala, nós podemos escrever a função de produção da economia como Y ( t ) N ( t ) f ( k ( t )) , ou, omitindo o tempo, Y Nf ( k ) e nt f ( k ) . O investimento bruto iguala-se ao produto menos o consumo, ou Y – Nc. A rede de investimentos iguala-se ao investimento bruto menos a depreciação física. Suponha que o capital físico deteriora-se a uma taxa por unidade por ano de maneira que a taxa total de degeneração do estoque de capital, quando ele é K, é K. Então a rede de acumulação de capital é K Y Nc K N ( f ( k ) c ) K N ( f ( k ) c ) Nk N ( f ( k ) c k ) 825 [ f ( k ) c ( n )k ] 1. c Consequentemente a equação (II) é: (10) e ( n )t u' ( c ) 0 , ou o valor de uma unidade no tempo t é a utilidade marginal do consumo nesse tempo, ajustada pelo crescimento da população e pela taxa de preferência pelo tempo (taxa de desconto). A equação (III) é obtida similarmente diferenciando as equações (7) e (9) com respeito a k. Isso resulta em: 0 [ f ' ( k ) ( n )] , ou (11) f' ( k ) n . A equação (10) pode ser usada para eliminar a variável desconhecida . Diferenciando-a em relação ao tempo: DORFMAN : TEORIA DO CONTROLE ÓTIMO u' ' ( c ) dc . n u' ( c ) dt Substituindo em (11): f' ( k ) com alguma clareza desenhado-se um diagrama de fase como mostrado na Figura 1. Nós encontramos que as taxas de mudança de k e c podem ser escritas como: k f ( k ) ( n )k c , u' ' ( c ) dc . u' ( c ) dt Essa é nossa equação final para o curso ótimo de acumulação do capital. Ela afirma que ao longo de tal curso a taxa de consumo a cada momento deve ser escolhida de tal maneira que a produtividade marginal do capital seja a soma de três componentes: (1) , a taxa social de preferência pelo tempo (a taxa de desconto) (2) , a taxa de depreciação física do capital, e (3) o termo mais estranho considerado que, contudo, é simplesmente a taxa percentual a qual o custo psicológico de poupar diminui através do tempo. Isso pode ser visto notando que o custo psicológico de poupar num tempo qualquer é u’(c), sua taxa temporal de mudança é u’’(c)dc/dt, e sua taxa temporal percentual de mudança é o negativo do terceiro termo na soma. Em outras palavras, ao longo do curso ótimo de acumulação, a contribuição marginal de uma unidade de capital ao produto durante um curto intervalo de tempo, deve ser exatamente suficiente para cobrir os três componentes de custo social de processar aquela unidade de capital, que são a taxa social de preferência pelo tempo (taxa de desconto), a taxa de deterioração física do capital e o custo psicológico adicional de poupar uma unidade no começo do intervalo preferivelmente que no fim. Todos eles são expressos em percentuais por unidade de tempo, que também é a dimensão da produtividade marginal do capital. A evolução dessa economia ao longo de seu curso ótimo de desenvolvimento pode ser vista 826 (9) c u' ( c ) [ f ' ( k )]. u' ' ( c ) Assim k 0 sempre que c e k satisfaçam a equação c f ( k ) ( n )k . Na Figura 1, k está no eixo horizontal e c no eixo vertical. A curva rotulada k 0 mostra combinações de c e k que satisfazem essa equação. Ela tem uma forma puxada para frente por causa das hipóteses convencionais de que a produtividade marginal do capital é positiva mas decrescente (isso é, f’(k)>0, f’’(k)<0), e a hipótese mais plausível de que para níveis mais baixos de capital por trabalhador, f’(k)>n+. Nós também assumimos que não é possível produzir nada com nenhum capital, isso é, f(0) = 0. Se o consumo per capta é menor que a taxa no local descrito, o capital per capta cresce ( k 0 ). Acima do local k 0 . c 0 c k 0 B C A k Figura 1 Similarmente , o consumo per capta não muda ( c 0 ) se f’(k)= . DORFMAN : TEORIA DO CONTROLE ÓTIMO A linha vertical na Figura 1, rotulada de c 0 , é desenhada para esse nível de k. Se nós aceitamos as hipóteses usuais de utilidade marginal positiva mas decrescente u’(c)>0, u’’(c)<0. Então c 0 , isso é, o consumo per capta cresce, do lado esquerdo dessa linha. A razão é que com níveis mais baixos de capital per capta o montante depreciado é menor e o montante de capital necessário para equipar o incremento da população com o nível de capital per capta atual também é menor. Essas considerações permiti-nos descrever qualitativamente as leis de movimento do sistema. Imagine um nível de capital per capta inicial baixo, representado pela linha vertical tracejada no diagrama. Toda a evolução do sistema é determinada pela escolha do nível inicial de consumo per capta. Se um nível inicial baixo é escolhido, tal como no ponto A na figura, tanto o consumo quanto o capital per capta cresceram com o tempo, seguindo a reta que parte do ponto A. Mas quando o nível de capital per capta alcança o nível crítico, o consumo per capta começará a baixar embora o nível de capital per capta continue a crescer. Essa é uma política de generosidade inicial no consumo seguida por abstinência crescente planejada, presumivelmente para atingir algum desejado nível final de capital per capta. Similarmente, o curso que parte do ponto B representa uma política de consumo per capta continuamente crescente, com o capital sendo acumulado inicialmente e eventualmente sendo consumido. Os outros cursos desenhados têm interpretações similares. O curso originado do ponto C é de interesse particular. Ele conduz à interseção das duas curvas críticas, o estado fixo do sistema no qual nem o consumo nem a renda per capta mudam. Embora nesse ponto todos os valores absolutos cresçam exponencialmente à taxa comum n. Agora vimos que se o capital per capta inicial é dado, todo o curso da economia está determinado pela escolha do nível inicial de 827 consumo per capta. Essa escolha determina, entre outras coisas, o montante de capital per capta numa data especificada.12 Se as condições do problema prescrevem um montante particular de capital em alguma data, o c inicial deve ser o único curso que conduz ao ponto especificado. Se não existem tal prescrição para acumulação do capital, o c inicial será o único que esgota o estoque de capital na data final sobre consideração. E se não existe data final (isso é, T= ) o problema torna-se muito difícil matematicamente e, na verdade, a teoria da otimização com um horizonte de tempo infinito não está mas completamente fundamentada. Mas, nesse simples caso, nós podemos ver que a única solução possível é um curso que se origina no ponto C e termina no ponto onde c k 0 . Pois, a figura mostra que todos os outros cursos que satisfazem as condições de otimização conduzem eventualmente a situações em que 12 A posição da economia numa data particular não pode ser lida fora do plano de fase. ou c ou k é negativo. Como tais cursos não podem ser realizados, o único caminho de otimização viável é aquele que se dirigi a c k 0 . Esse é um resultado bem característico de um problema de horizonte infinito: os cursos de crescimento ótimo, sobre muitas condições, dirigem-se à situação em que o consumo e o estoque de capital crescem exponencialmente à taxa determinada pela taxa de crescimento da população e a taxa do progresso tecnológico (aqui assumida igual a zero), exatamente como nesse caso. Para problemas de horizonte finito, podese mostrar que na data final mais remota considerada, no final o curso se dirigirá para a posição do estado imutável ( c k 0 ) indo antes ou para um alto consumo ou para uma alta acumulação de capital dependendo do DORFMAN : TEORIA DO CONTROLE ÓTIMO caso. Essa é uma “turnpike”. versão do teorema do Esse problema é resolvido estabelecendose a função Lagrangeana n IV. Obtenção via Maximização Finita Aqueles que desconfiam da habilidade, e de argumentos intuitivos, como eu, devem achar mais confortante ver os mesmos resultados deduzidos por um método mais familiar de maximização sujeita a um número finito de restrições. Suponha que o período total de T meses seja dividido em n subperíodos de m meses cada. u( xt , kt , t) denota então a taxa a qual os lucros estão sendo ganhos, ou outros benefícios estão sendo obtidos, durante o téssimo subperíodo, com xt sendo o valor da variável de decisão durante aquele subperíodo, e kt o valor da variável de estado no começo desse subperíodo. Como o subperíodo tem duração de m meses, o lucro total ganho é u( xt , kt ,t)m. A taxa de mudança da variável de estado durante o t-éssimo período é f( xt , kt ,t). Então os valores da variável de estado no começo dos subperíodos sucessivos são relacionados pela equação (12) k t 1 k t f ( xt , k t , t )m . Finalmente, a versão finita do nosso problema é escolher 2n valores, xt , kt de tal maneira que maximize o lucro total sobre o período total, L u( x t , k t , t )m t 1 n t [ k t f ( x t , k t , t )m k t 1 ] . t 1 0 [ K 0 k1 ] [ k n 1 K T ] E fazendo cada uma de suas derivadas parciais iguais a zero. Os símbolos gregos na fórmula são os multiplicadores de Lagrange, um para cada restrição. Nós deveremos interpretá-los depois de terminarmos nossos cálculos. A mesma expressão do Hamiltoniano que nós encontramos no começo está começando a emergir, assim é conveniente escrever H ( xt , k t , t ) u( xt , k t , t ) t f ( xt , k t , t ) e n n 1 1 L m H ( x t , k t , t ) t ( k t k t 1 ) 0 ( K 0 k1 ) ( k n 1 K T ). Agora diferenciando e igualando as derivadas a zero: L m H ( xt , k t ,t ) x t x t (13) [ u1 ( x t , k t , t ) t f 1 ( x t , k t , t )] m 0 para t 1, 2 , n , n u( xt , k t , t )m . t 1 Sujeito às n restrições (12), e para algumas condições de contorno que devem ser aplicadas. Para ser específico, suponha que os valores iniciais e finais para a variável de estado são previamente estabelecidos. Isso faz aparecer as condições k1 K 0 k n 1 K T 828 que é análoga a equação (5). E L m H ( x t , k t , t ) t t 1 0 k t k t ou (14) t t 1 u 2 ( xt , k t ,t ) m t f 2 ( x t , k t , t ), para t 1, , n, que é a análoga discreta da equação (6). Finalmente DORFMAN : TEORIA DO CONTROLE ÓTIMO L n 0. k n 1 Assim, n e pode ser esquecido. Essas equações são aplicáveis a problemas nos quais o tempo é considerado como uma variável discreta. Os multiplicadores de Lagrange têm suas interpretações usuais. Em particular, t é o montante pelo qual o valor n máximo atingível de u( x , k t 1 t t , t )m será acrescido se uma unidade adicional de capital tornou-se disponível por mágica no final do téssimo período. Em outras palavras, t é o valor marginal do capital em mãos na data mt. As condições de maximização achadas previamente devem ser o limite dessas equações quando m tende para zero e n para infinito, e elas são. Para mostrar isso, nós precisamos revisar ligeiramente nossa notação. As variáveis subscritas agora denotam os valores que as variáveis têm no t-éssimo período. Quando m muda, as datas incluídas no t-éssimo período também mudam. Assim nós precisamos de símbolos para os valores das variáveis para uma data fixa. Para esse fim, denotará uma data e x(), por exemplo, o valor de x nessa data. A conexão entre xt e x() é fácil. Uma data está em um subperíodo numerado t onde t é dado por t 1 [ / m ] . Nessa fórmula, [ ] é uma antiga notação usual que significa “parte inteira de”. Por exemplo: [3,14159]= 3. Então x() é denotado por x( ) x1 [ / m ] , e similarmente para as outras variáveis. As equações (13) e (14) podem agora serem escritas em termos de : (15) u1 [ x( ), k( ), ] t f 1 [ x( ), k( ), ] 0, 829 (16) ( ) ( m ) u 2 [ x( ), k( ), ] m ( ) f 2 [ x( ), k ( ), ]. Note na equação (16) que t 1 foi trocado por ( m ) , refletindo que o começo dos intervalos são m meses separadamente. A equação (15) é idêntica à (II). Quando m aproxima-se de zero, o lado esquerdo da equação (16) aproxima-se de ( ) , fazendo por garantia que ela se aproxima como um limite e aplicando a definição de derivada. A equação total, portanto, aproxima-se da equação (III). A equação (I) é similarmente e obviamente a forma limite da equação (12). Assim, as equações básicas do princípio do máximo são vistas como formas limites das condições necessárias de primeira ordem para um máximo aplicado ao mesmo problema, e as variáveis auxiliares do princípio do máximo são os valores limites dos multiplicadores de Lagrange. VI. Qualificação e Extensão Todo esse desenvolvimento foi excessivamente informal, posto generosamente. O cálculo das variações é uma matéria difícil e delicada, de forma que sempre foi feita uma escolha entre especificar corretamente uma proporção, com todas as qualificações que ela merece, e especificá-la forçosa e claramente de tal maneira que a idéia essencial possa ser compreendida facilmente. A alternativa mais inteligível foi escolhida nesse paper pois todos os teoremas foram rigorosamente provados e estabelecidos na literatura.13 Essa escolha, quando ela ocorre, tem um obstáculo especial no presente contexto porque muitas das virtudes do princípio do máximo reside precisamente nas qualificações que foram suprimidas: ele é válido sob condições mais DORFMAN : TEORIA DO CONTROLE ÓTIMO gerais do que os métodos clássicos que produzem quase os mesmos teoremas. Como um exemplo do modo alternativo de exposição, nossas principais conclusões podem ser estabelecidas mais formalmente e corretamente como segue:14 TEOREMA 1. Pede-se para achar um curso temporal de uma variável de controle x(t) de tal maneira que maximize a integral T u [ k( t ), x( t ), t ] dt , 0 onde dk f [ k ( t ), x( t ), t ] , dt onde k(0) é preestabelecido, e onde requerse que k( T ) K . Assume-se que as funções u(k, x, t) e f(k, x, t) são duas vezes continuamente diferenciáveis (são de classe C2) com respeito a k, diferenciável com respeito a x, e contínua com respeito a t. Então se x*(t) é uma solução a esse problema, existe uma variável auxiliar ( t ) tal que: 13 Por exemplo, em Arrow and Kurz [3] e Halkin [5] . O teorema dado é uma adaptação do de Arrow[2], Proposições 1 e 2. Teoremas mais elaborados podem ser achados nessa fonte. 14 (a) Para cada t, x*(t) maximiza H [ k ( t ), x( t ), ( t ), t ] onde H ( k , x , , t ) u( k , x , t ) f ( k , x , t ) ; d H (b) ( t ) satisfaça avaliado dt x para k=k(t), x=x*(t), ( t ) ; e ( T ) 0 (c) k( T ) K , , ( t )[ k( T ) K ] 0 . Esse teorema aplica-se ao tipo de problema que nós estávamos considerando, com a elaboração útil de que um limite inferior foi imposto no valor final da variável de estado, k. A parte (c) da conclusão, chamada de condição de transversalidade, resulta desse 830 requerimento adicional. Ela afirma que o valor final da variável auxiliar não pode ser negativo e que será zero se, no final do curso ótimo, k(T) exceder o valor requerido. A principal diferença entre esse enunciado formal e nossas prévias conclusões residi na conclusão (a) do Teorema. A afirmação de que a função Hamiltoniano, H, é maximizada a cada instante de tempo não é o mesmo que afirmar que suas derivadas parciais desaparecerão, como feito em nossas equações (II) e (II’). Igualar as derivadas parciais a zero não é nem necessário nem suficiente para maximização, embora seja especialmente esclarecedora para os economistas, quando é apropriada, porque condições nas derivadas parciais traduzem-se prontamente em igualdades marginais. Existem três complicações que podem fazer o desaparecimento das derivadas parciais uma indicação inadequada da localização de um máximo. Primeira, existem as chamadas condições de ordem maior. As derivadas parciais de primeira ordem podem zerar para um mínimo ou para um ponto de cela bem como para um máximo. Para se prevenir contra essas possibilidades, as derivadas parciais de segunda ordem, e outras de ordem maior, devem ser levadas em conta. Segundo, o desaparecimento das derivadas parciais, mesmo quando as condições de ordem mais altas são satisfeitas, estabelece apenas um máximo local. Isso não impede que possa existir algum outro valor das variáveis, a uma distância finita, para a qual a função será maximizada tendo um valor mais alto ainda. Para realçar esse ponto, uma inspeção global é melhor que inspeções apenas em diferenciais ou propriedades locais das funções envolvidas. Finalmente, onde a faixa de variação das funções envolvidas é limitada de alguma maneira, o máximo deve ser atingido num ponto onde as derivadas parciais não DORFMAN : TEORIA DO CONTROLE ÓTIMO desapareceram. Isso ocorre freqüentemente em aplicações econômicas, como estamos familiarizados, em programação linear. Por exemplo, deve ser ótimo para uma firma com grandes possibilidades de crescimento reduzir seus dividendos a zero, embora dividendos negativos não sejam permitidos. Em termos das nossas fórmulas isso será indicado achando H 0 para todo x t 0 , x t onde xt denota pagamento de dividendos por ano no tempo t. H deve ser maximizado escolhendo-se xt =0, seu menor valor permissível, apesar das derivadas parciais não serem zero.15 Esse máximo não pode ser encontrado pelos métodos comuns do cálculo. Outros métodos, com certeza, estão disponíveis como esse da programação matemática. E é exatamente nessas circunstâncias que o princípio do máximo produz teoremas mais elegantes e manejáveis que o velho cálculo das variações, que é o parente mais próximo do cálculo diferencial. Por todas essas razões, a condição fundamental para um curso de crescimento ótimo é a maximização de H(k, x,, t) a todo momento de tempo, e o desaparecimento de H é apenas dispositivo seguro mas x imperfeito para se localizar esse máximo. Ele é, no entanto, um dispositivo muito esclarecedor 15 Tecnicamente isso é chamado de “solução de canto”. e contém o conceito essencial da matéria, motivo pelo qual nos concentramos nele. Em toda a discussão nós tentamos ser ambíguos sobre a natureza exata dos cursos temporais, x(t) e k(t). Nós tratamos x e k como se elas fossem variáveis unidimensionais, tal como a quantidade de capital ou a taxa de consumo. Em muitos problemas econômicos, porém, existem várias variáveis de estado e várias variáveis de escolha (decisão). Em tais problemas, é proveitoso pensar em x(t), k(t), 831 suas derivadas, e assim por diante, como vetores. Então ( t ) também deve ser visto como um vetor, com um componente para cada componente de k(t). Quando toma-se esse ponto de vista, todas as nossas conclusões e também o teorema são aplicáveis quase sem mudança na notação. Isso porque nós fomos ambíguos: é mais fácil pensar com números ordinários, mas nossas conclusões e também muitos dos nossos argumentos são aplicáveis quando as variáveis são vetores. A última observação cultiva algumas novas possibilidades importantes. Muitos problemas econômicos dizem respeito a cursos temporais de variáveis interconectadas. Por exemplo, um problema pode tratar com cursos de crescimento do consumo (c), investimento (i), gastos governamentais (g), e renda (y) em uma economia. Essas quatro variáveis podem ser consideradas como quatro componentes de um vetor de decisão, x, conectados pela identidade da renda c(t) + i(t) + g(t) = y(t). Então o problema de otimizar o curso de crescimento requer que sejam achados os cursos ótimos de crescimento para essas quatro variáveis (e talvez outras) que satisfaçam a identidade da renda. A nova característica que nós encontramos é a introdução de restrições ou condições laterais nos valores das variáveis de decisão. A mesma linha de raciocínio que nós usamos pode ser usada, com apenas uma modificação, a de que, quando a função V(k, xt , t) é maximizada, o vetor xt tem que ser escolhido de maneira a satisfazer todas as condições laterais. A álgebra torna-se um pouco mais complicada mas conduz a conclusões como as discutidas acima e com a mesma importância econômica. Em 1968, Kenneth Arrow deduziu uma versão lúcida do enunciado formal do teorema aplicável a problemas nos quais as variáveis de decisão são restritas. Veja [2, Proposição 3, p.90]. De DORFMAN : TEORIA DO CONTROLE ÓTIMO fato, esse argumento, também, presume aquelas circunstâncias em que as próprias derivadas parciais zeram para um máximo. REFERÊNCIAS: [1] K. J. ARROW, “Discounting and Public Investment Criteria,” in A. V. Kneese and S. C. Smith, eds. Water Research, Washington 1966, pp. 13-32. [2]______, “Applications of Control Theory to Economic Growth ,” American Mathematical Society, Mathematics of the Decision Sciences, Part 2. Providence 1968, pp. 85-119. [3]______, AND M. KURZ, Public Investment, the Rate of Return, and Optimal Fiscal Policy. Stanford University Institute for Mathematical Studies in the Social Sciences, 1968. [4] R. BELLMAN, Dynamic Programming. Princeton 1957. [5] H.HALKIN, “On the Necessary Condition for Optimal Control of Nonlinear Systems,” Journal D’Analyse Mathêmatique, 1964, 12, 1-82. [6] H. HOTELLING, “A General Mathematical Theory of Depreciation,” J. Amer. Statist. Ass., Sept. 1925, 20, 340-53. [7] L. S. PONTRYAGIN, V. G. BOLTVANSKII, R. V. MISHCHENKO, The Mathematical Theory of Optimal Processes,(tr. By K. N. Trirogoff). New York 1962. [8] F. P. RAMSEY, “A Mathematical Theory of Saving,” Econ. J. Dec. 1942, 38, 543-59. [9] J. ROBINSON, The Accumulation of Capital. Homewood, 1956. 832