Programação Dinâmica Determinística Processos de Decisão Multiestágios Um processo de decisão multiestágios é um processo que pode ser desdobrado segundo um certo número de etapas sequênciais, ou estágios, que podem ser completados de uma ou de diversas maneiras. As opções para se completarem os estágios designam-se por decisões. Uma política é uma sucessão de decisões – uma para cada estágio do processo. A situação do processo num dado estágio é o estado neste estágio. Cada decisão leva a uma transição do estado corrente para o estado associado ao estágio seguinte. Um processo de decisão multiestágios é finito se houver apenas um número finito de estágios no processo e um número finito de estados associados a cada estágio. Muitos processos de decisão multiestágios apresentam retornos (custos ou benefícios) associados a cada estágio de decisão e estes retornos podem variar, simultaneamente, com o estágio e o estado do processo. O objecto da análise de tais processos é a determinação de uma política óptima: a que resulta no melhor retorno total. Exemplo: Um indivíduo dispõe de 400 000 euro para investir em três oportunidades disponíveis: 1. Terrenos de pastagens 2. Terrenos de regadio 3. Florestas Cada um dos investimentos requer depósitos em parcelas de 100 000 euro. O investidor pode afectar todo o dinheiro a um único investimento ou reparti-lo entre os três. Os retornos esperados são apresentados a seguir: Euros Investidos 0 100 000 200 000 300 000 400 000 Retorno do Investimento 1 0 200 000 500 000 600 000 700 000 Retorno do Investimento 2 0 100 000 300 000 600 000 700 000 Retorno do Investimento 3 0 100 000 400 000 500 000 800 000 1 Quanto deve ser investido em cada uma das três opções a fim de se ter o maior retorno global? Como são requeridos depósitos em parcelas de 100 000 euro, podemos simplificar o quadro dos retornos de forma óbvia: x em que f i x, i 1,2,3 f 0 1 2 3 4 f1x 0 2 5 6 7 f 2x 0 1 3 6 7 f 3x 0 1 4 5 8 representa o retorno (em centenas de milhar de euro) proporcionado pelo investimento i correspondente à aplicação de X unidades monetárias no respectivo negócio. Sendo xi , i 1,2,3, o número de unidades monetárias, centenas de milhar de euro, aplicados no investimento seguinte: Max s.a i pode-se formular o problema do modo f1 x1 f 2 x2 f3 x3 x1 x2 x3 4 x1, x2, x3 inteiros não negativos. O processo de decisão de quanto investir em cada oportunidade a fim de maximizar o retorno total é um processo de decisão a três estágios. A consideração da oportunidade i constitui o estágio i, i 1,2,3 . O estado do estágio i é a quantidade de fundos ainda disponível para o investimento no estágio i . Para o estágio 1, início do processo, há 4 unidades monetárias disponíveis; em consequência o estado é 4. Para os estágios 2 e 3, os estados podem ser 0, 1, 2, 3, 4, dependendo das afectações (decisões) nos estágios precedentes. A decisão no estágio i é representada pela variável xi . Os valores de xi são os inteiros desde 0 ao valor do estágio i , inclusivé. Um processo de decisão multiestágios é determinístico se o resultado de cada decisão (em particular, o estado produzido pela decisão) for conhecido exactamente. Estamos a tratar apenas processos multiestágios simultaneamente finitos e determinísticos. 2 Programação Dinâmica A programação dinâmica é uma abordagem para se optimizar processos de decisão multiestágios. Baseia-se no Princípio do Óptimo de Bellman: Uma política óptima apresenta a propriedade de que, independentemente das decisões tomadas para se assumir um estado particular num certo estágio, as decisões restantes a partir deste estado devem constituir uma política óptima. Para se implementar este princípio, parte-se do último estágio de um processo de n estágios e determina-se a melhor política para se deixar aquele estado e completar o processo, supondo-se que todos os estágios anteriores tinham sido completados. Efectua-se o deslocamento, então, ao longo do processo de trás para diante, estágio por estágio. Em cada estágio determina-se a melhor política para se deixar cada estado e completar o processo, supondo-se que todos os estágios procedentes foram concluídos e utilizando-se os resultados já obtidos para o estágio seguinte. Normalmente designam-se por u : variável de estado cujos valores especificam os estados, m j u : retorno óptimo estágio j com o estado u , para se completar o processo começando no d j u : decisão que ao ser tomada no estágio j leva a m j u . Os elementos correspondentes ao último estágio do processo são geralmente calculados directamente. Os elementos restantes são obtidos por recorrência, isto é: os elementos do j - ésimo estágio são determinados em função dos elementos do estágio j 1. Voltemos ao nosso exemplo e resolvamo-lo aplicando esta metodologia. Começa-se por considerar o último estágio do processo, estágio 3, sob a hipótese de que os estágios precedentes, 1 e 2, tenham sido completados. Isto é: efecturam-se as afectações aos investimentos 1 e 2 (embora não saibamos quais) e deve completar-se o processo afectando-se unidades monetárias ao investimento 3. Como se ignora quantas unidades foram afectadas aos dois primeiros investimentos, não se sabe quantas estão disponíveis para o investimento 3. Em consequência, devem ser consideradas todas as possililidades: 0, 1, 2, 3, ou 4 unidades disponíveis. f 3 x está definida na tabela atrás na última linha. Assim, 3 - m3 4 máx f3 0, f3 1, f3 2, f3 3, f3 4 máx0,1,4,5,8 8; d3 4 4 - m3 3 máx f3 0, f3 1, f3 2, f3 3 máx0,1,4,5 5; d3 3 3 - m3 2 máx f3 0, f3 1, f3 2 máx0,1,4 4; d3 2 2 - m3 1 máx f3 0, f3 1 máx0,1 1; d3 1 1 - m3 0 máx f3 0 máx0 0; d3 0 0 Assim u d3 u d3 u 0 0 1 1 2 4 3 5 4 8 0 1 2 3 4 Tendo-se completado o estágio 3, considera-se, em seguida, em seguida o estágio 2 sob a hipótese de que o estágio 1 tenha sido completado (embora, neste momento, não se saiba como). Uma vez que não se sabe quantas unidades foram afectadas ao investimento 1, não se sabe quantas unidades estão disponíveis para o investimento 2. Deve-se, portanto, considerar todas as possibilidades. Uma possibilidade é que 4 unidades estejam disponíveis no estágio 2, o que pressupõe que nenhuma unidade tenha sido afectada ao investimento 1. Neste caso, todas ou algumas destas 4 unidades podem ser afectas no estágio 2, ficando as restantes disponíveis para o estágio 3. Se x destas 4 unidades forem afectadas ao investimento 2, o retorno será f 2 x e as restantes 4 x unidades ficarão disponíveis para o estágio 3. Mas já se determinou a melhor continuação a partir do estágio 3 quando se têm disponíveis 4 x unidades: m3 4 x . O retorno total, por conseguinte é f 2 x m3 4 x e o valor de x, x 0,1,2,3,4, que maximiza este retorno total representa a decisão óptima no estágio 2, com 4 unidades disponíveis. Assim - m2 4 máx f 2 0 m3 4 0, f 2 1 m3 4 1, f 2 2 m3 2, f 2 3 m3 1, f 2 4 m3 0 máx0 8, 1 5, 3 4, 6 1, 7 0 8; 4 d 2 4 0 Análogamente - m2 3 máx f 2 0 m3 3, f 2 1 m3 2, f 2 2 m3 1, f 2 3 m3 0 máx0 5, 1 4, 3 1, 6 0 6; d 2 3 3 - m2 2 máx f 2 0 m3 2, f 2 1 m3 1, f 2 2 m3 0 máx0 4, 1 1, 3 0 4 d 2 2 0 - m2 1 máx f 2 0 m3 1, f 2 1 m3 0 máx0 1, , 1 0 1 d 2 1 1 (desempate arbitrário) - m2 2 máx f 2 0 m3 0 máx0 0 0 d 2 0 0 5 Podemos assim, acrescentando estes resultados, obter a tabela: u m3 u d 3u m2 u d 2 u 0 0 1 1 2 4 3 5 4 8 0 1 2 3 4 0 1 4 6 8 0 1 0 3 0 Vamos finalmente para o estágio 1 após completado o estágio 2. Há apenas um estado associado a este estágio: u 4 . - m14 máx f10 m2 4, f11 m2 3, f12 m2 2, , f13 m2 1, f14 m2 0 máx0 8, 2 6, 5 4, 6 1, 7 0 máx8,8,9,7,7 9 d1 4 2 Em suma u m3 u d 3u m2 u d 2u m2 u d1u 0 0 1 1 2 4 3 5 4 8 0 1 2 3 4 0 1 4 6 8 0 1 0 3 0 ... ... ... ... ... ... ... ... 9 2 O retorno máximo que pode ser obtido a partir deste programa de investimento de três estágios com 4 unidades é m1 4 9 unidades. Para se obter este retorno: - d14 2 6 Afectam-se 2 unidades ao investimento 1 (pastagens), - d 2 2 0 Ficam 4 2 2 unidades para o estágio 2. Mas d 2 2 0 , indicando que nenhuma unidade deveria ser gasta neste estágio se houver 2 unidades disponíveis. Ou seja: não se deve investir em terrenos de regadio, - d 3 2 2 As duas unidades permanecem para o estágio 3. Como ambas devem ser afectadas ao investimento 3 (Florestas). d 3 2 2 , Portanto o investimento óptimo é afectar 200 000 euro ao investimento em portagens e 200 000 euro ao investimento em florestas. Não se deve investir nada em regadio. Assim obtém-se o retorno f1 2 f 2 2 f 3 2 5 4 9 (900 000 euro). Exemplo Um transportador dispõe de 8m3 de espaço disponível num veículo pesado que faz o trajecto Porto-Lisboa. Um distribuidor com grandes quantidades de três tipos diferentes de utensílios, todos destinados a Lisboa, ofereceu ao transportador as seguintes taxas de pagamento para transportar tantos itens quantos o veículo pesado tem para acomodar: Utensílios I II III Taxa Euro/Item 11 32 58 Volume m3/Item 1 3 5 Quantos ítens de cada artigo o transportador deveria aceitar para maximizar o lucro com o frete sem exceder a capacidade disponível no veículo? Este problema pode ser encarado como um processo de 3 estágios envolvendo afectações de espaço para os utensílios I, II, III respectivamente. O estado de cada estágio é o número de metros cúbicos de espaço ainda desocupado. 7 Assim X 0 1 2 3 4 5 6 7 8 f1x 0 11 22 33 44 55 66 77 88 f 2x 0 0 0 32 32 32 64 64 64 f 3x 0 0 0 0 0 58 58 58 58 f A primeira linha da Tabela é imediata uma vez que todo o metro cúbico adicional afectado ao artigo I produz um lucro adicional de 11 euro. Para a segunda linha é necessário ter em conta que cada utensílio do tipo II ocupa 3m3 e, portanto, a menos que se tenha pelo menos 3m 3 de espaço disponível nenhum ítem deste tipo pode ser transportado e nenhum lucro pode ser obtido. Se 3, 4 ou 5m3 forem afectadas ao utensílio II somente um ítem pode ser acomodado, resultando um lucro líquido de 32 euro. Se 6, 7 ou 8m 3 forem afectados, então podem ser transportados 2 ítens, com um lucro líquido de 64 euro. Uma análise semelhante é aplicada ao ítem III. Nenhum lucro é obtido se menos de 5m3 forem afectados. E, se, 5, 6, 7 ou 8m 3 forem afectados, apenas um utensílio III pode ser transportado com um lucro líquido de 58 euro. Então, - m3 8 máx f 3 0, f 3 1, f 3 2, f 3 3, f 3 4, f 3 5, f 3 6, f 3 7, f 3 8 máx0,0,0,0,0,58,58,58,58 58 d3 8 5 - (escolheu-se o menor maximizante) m3 7 máx f 3 0, f 3 1, f 3 2, f 3 3, f 3 4, f 3 5, f 3 6, f 3 7 máx0,0,0,0,0,58,58,58 58 d 3 7 5 - (escolheu-se o menor maximizante) m3 6 máx f 3 0, f 3 1, f 3 2, f 3 3, f 3 4, f 3 5, f 3 6 máx0,0,0,0,0,58,58 8 58 d3 6 5 - (escolheu-se o menor maximizante) m3 5 58 d3 5 5 (escolheu-se o menor maximizante) Então, u m3 u d3 u 0 0 1 0 2 0 3 0 4 0 5 58 6 58 7 58 8 58 0 0 0 0 0 5 5 5 5 Continuando - m2 8 máx f 2 0 m3 8, f 2 1 m3 7, f 2 2 m3 6, f 2 3 m3 5, , f 2 4 m3 4, f 2 5 m3 3, f 2 6 m3 2, f 2 7 m3 1, f 2 8 m3 0 máx0 58, 0 58, 0 58, 32 58, 32 0, 32 0, ,64 0, 64 0, 64 0 90 d 2 8 3 - m2 7 máx f 2 0 m3 7, f 2 1 m3 6, f 2 2 m3 5, f 2 3 m3 4, , f 2 4 m3 3, f 2 5 m3 2, f 2 6 m3 1, f 2 7 m3 0 máx0 58, 0 58, 0 58, 32 0, 32 0, 32 0, ,64 0, , 64 0 64 d 2 7 6 - (escolheu-se o menor maximizante) m2 6 máx0 58, 0 58, 0 0, 32 0, 32 0, 32 0, 9 ,64 0 64 d 2 6 6 - m2 5 máx0 58, 0 0, 0 0, 32 0, 32 0, 32 0 58 d 2 5 0 - m2 4 máx0 0, 0 0, 0 0, 32 0, 32 0 32 d3 4 3 - (escolheu-se o menor maximizante) m2 3 máx0 0, 0 0, 0 0, 32 0 32 d 2 3 3 - m2 2 máx0 0, 0 0, 0 0 0 d 2 2 0 - m2 0 m2 1 0 d 2 0 d 2 1 0 - (tomou-se o menor maximizante) m3 0 m3 1 m3 2 m3 3 m3 4 0 d3 0 d3 1 d3 2 d3 3 d3 4 0 (escolheu-se o menor maximizante) 10 u 0 1 2 3 4 5 6 7 0 0 0 32 32 58 64 64 8 90 d 2u 0 0 0 3 3 0 6 6 3 m2u Finalmente - m18 máx0 90, 11 64, 22 64, 33 58, 44 32, 55 32, ,66 0, 77 0, 88 0 máx90,75,86,91,76,87,66,77,88 9 d1 8 3. O melhor lucro total para o transportador é 91 euro. Para o obter, deve afectar 3m3 ao utensílio I d1 8 3 . Ficam 5m3 disponíveis para os utensílios II e III. Como d 2 5 0 não deve ser afectado nenhum espaço ao utensílio II. Ficam então ainda 5m3 disponíveis para o utensílio III. Confirmando, f1 3 f 2 0 f 3 5 33 0 58 91. 11