“Tem de se viver com eles, falar com eles durante muito tempo

Propaganda
Programação Dinâmica Determinística
Processos de Decisão Multiestágios
Um processo de decisão multiestágios é um processo que pode ser
desdobrado segundo um certo número de etapas sequênciais, ou estágios, que
podem ser completados de uma ou de diversas maneiras.
As opções para se completarem os estágios designam-se por decisões.
Uma política é uma sucessão de decisões – uma para cada estágio do
processo.
A situação do processo num dado estágio é o estado neste estágio.
Cada decisão leva a uma transição do estado corrente para o estado associado
ao estágio seguinte.
Um processo de decisão multiestágios é finito se houver apenas um número
finito de estágios no processo e um número finito de estados associados a
cada estágio.
Muitos processos de decisão multiestágios apresentam retornos (custos ou
benefícios) associados a cada estágio de decisão e estes retornos podem
variar, simultaneamente, com o estágio e o estado do processo.
O objecto da análise de tais processos é a determinação de uma política
óptima: a que resulta no melhor retorno total.
Exemplo:
Um indivíduo dispõe de 400 000 euro para investir em três oportunidades
disponíveis:
1. Terrenos de pastagens
2. Terrenos de regadio
3. Florestas
Cada um dos investimentos requer depósitos em parcelas de 100 000 euro.
O investidor pode afectar todo o dinheiro a um único investimento ou reparti-lo
entre os três. Os retornos esperados são apresentados a seguir:
Euros Investidos
0
100 000
200 000
300 000
400 000
Retorno
do
Investimento 1
0
200 000
500 000
600 000
700 000
Retorno
do
Investimento 2
0
100 000
300 000
600 000
700 000
Retorno
do
Investimento 3
0
100 000
400 000
500 000
800 000
1
Quanto deve ser investido em cada uma das três opções a fim de se ter o
maior retorno global?
Como são requeridos depósitos em parcelas de 100 000 euro, podemos
simplificar o quadro dos retornos de forma óbvia:
x
em que
f i x, i  1,2,3
f
0
1
2
3
4
f1x
0
2
5
6
7
f 2x 
0
1
3
6
7
f 3x 
0
1
4
5
8
representa o retorno (em centenas de milhar de euro)
proporcionado pelo investimento i correspondente à aplicação de X unidades
monetárias no respectivo negócio.
Sendo xi , i  1,2,3, o número de unidades monetárias, centenas de milhar de
euro, aplicados no investimento
seguinte:
Max
s.a
i
pode-se formular o problema do modo
f1 x1   f 2 x2   f3 x3
x1  x2  x3  4
x1, x2, x3 inteiros não negativos.
O processo de decisão de quanto investir em cada oportunidade a fim de
maximizar o retorno total é um processo de decisão a três estágios. A
consideração da oportunidade i constitui o estágio i, i  1,2,3 . O estado do
estágio i é a quantidade de fundos ainda disponível para o investimento no
estágio i .
Para o estágio 1, início do processo, há 4 unidades monetárias disponíveis;
em consequência o estado é 4.
Para os estágios 2 e 3, os estados podem ser 0, 1, 2, 3, 4, dependendo das
afectações (decisões) nos estágios precedentes. A decisão no estágio i é
representada pela variável xi . Os valores de xi são os inteiros desde 0 ao
valor do estágio i , inclusivé.
Um processo de decisão multiestágios é determinístico se o resultado de cada
decisão (em particular, o estado produzido pela decisão) for conhecido
exactamente. Estamos
a tratar apenas processos multiestágios
simultaneamente finitos e determinísticos.
2
Programação Dinâmica
A programação dinâmica é uma abordagem para se optimizar processos de
decisão multiestágios. Baseia-se no Princípio do Óptimo de Bellman:
Uma
política
óptima
apresenta
a
propriedade
de
que,
independentemente das decisões tomadas para se assumir um estado
particular num certo estágio, as decisões restantes a partir deste estado
devem constituir uma política óptima.
Para se implementar este princípio, parte-se do último estágio de um processo
de n estágios e determina-se a melhor política para se deixar aquele estado e
completar o processo, supondo-se que todos os estágios anteriores tinham
sido completados.
Efectua-se o deslocamento, então, ao longo do processo de trás para diante,
estágio por estágio. Em cada estágio determina-se a melhor política para se
deixar cada estado e completar o processo, supondo-se que todos os estágios
procedentes foram concluídos e utilizando-se os resultados já obtidos para o
estágio seguinte. Normalmente designam-se por
u : variável de estado cujos valores especificam os estados,
m j u  : retorno óptimo
estágio j com o estado u ,
para se completar o processo começando no
d j u  : decisão que ao ser tomada no estágio j
leva a
m j u  .
Os elementos correspondentes ao último estágio do processo são geralmente
calculados directamente. Os elementos restantes são obtidos por recorrência,
isto é: os elementos do j - ésimo estágio são determinados em função dos
elementos do estágio
j  1.
Voltemos ao nosso exemplo e resolvamo-lo aplicando esta metodologia.
Começa-se por considerar o último estágio do processo, estágio 3, sob a
hipótese de que os estágios precedentes, 1 e 2, tenham sido completados. Isto
é: efecturam-se as afectações aos investimentos 1 e 2 (embora não saibamos
quais) e deve completar-se o processo afectando-se unidades monetárias ao
investimento 3.
Como se ignora quantas unidades foram afectadas aos dois primeiros
investimentos, não se sabe quantas estão disponíveis para o investimento 3.
Em consequência, devem ser consideradas todas as possililidades: 0, 1, 2, 3,
ou 4 unidades disponíveis. f 3 x está definida na tabela atrás na última linha.
Assim,
 
3
-
m3 4  máx f3 0, f3 1, f3 2, f3 3, f3 4  máx0,1,4,5,8  8; d3 4  4
-
m3 3  máx f3 0, f3 1, f3 2, f3 3  máx0,1,4,5  5; d3 3  3
-
m3 2  máx f3 0, f3 1, f3 2  máx0,1,4  4; d3 2  2
-
m3 1  máx f3 0, f3 1  máx0,1  1; d3 1  1
-
m3 0  máx f3 0  máx0  0; d3 0  0
Assim
u
d3 u 
d3 u 
0
0
1
1
2
4
3
5
4
8
0
1
2
3
4
Tendo-se completado o estágio 3, considera-se, em seguida, em seguida o
estágio 2 sob a hipótese de que o estágio 1 tenha sido completado (embora,
neste momento, não se saiba como). Uma vez que não se sabe quantas
unidades foram afectadas ao investimento 1, não se sabe quantas unidades
estão disponíveis para o investimento 2. Deve-se, portanto, considerar todas as
possibilidades.
Uma possibilidade é que 4 unidades estejam disponíveis no estágio 2, o que
pressupõe que nenhuma unidade tenha sido afectada ao investimento 1. Neste
caso, todas ou algumas destas 4 unidades podem ser afectas no estágio 2,
ficando as restantes disponíveis para o estágio 3.
Se x destas 4 unidades forem afectadas ao investimento 2, o retorno será
f 2 x e as restantes 4  x unidades ficarão disponíveis para o estágio 3. Mas
já se determinou a melhor continuação a partir do estágio 3 quando se têm
disponíveis 4  x unidades: m3 4  x . O retorno total, por conseguinte é
 
f 2 x  m3 4  x


e o valor de x, x  0,1,2,3,4, que maximiza este retorno
total representa a decisão óptima no estágio 2, com 4 unidades disponíveis.
Assim
-
m2 4  máx f 2 0  m3 4  0, f 2 1  m3 4  1,
f 2 2  m3 2, f 2 3  m3 1, f 2 4  m3 0 
 máx0  8, 1  5, 3  4, 6  1, 7  0 
 8;
4
d 2 4  0
Análogamente
-
m2 3  máx f 2 0  m3 3, f 2 1  m3 2, f 2 2  m3 1, f 2 3  m3 0 
 máx0  5, 1 4, 3  1, 6  0 
 6;
d 2 3  3
-
m2 2  máx f 2 0  m3 2, f 2 1  m3 1, f 2 2  m3 0 
 máx0  4, 1 1, 3  0 
4
d 2 2  0
-
m2 1  máx f 2 0  m3 1, f 2 1  m3 0 
 máx0  1, , 1  0 
1
d 2 1  1 (desempate arbitrário)
-
m2 2  máx f 2 0  m3 0 
 máx0  0 
0
d 2 0  0
5
Podemos assim, acrescentando estes resultados, obter a tabela:
u
m3 u 
d 3u 
m2 u 
d 2 u 
0
0
1
1
2
4
3
5
4
8
0
1
2
3
4
0
1
4
6
8
0
1
0
3
0
Vamos finalmente para o estágio 1 após completado o estágio 2. Há apenas
um estado associado a este estágio: u  4 .
-
m14  máx f10  m2 4, f11  m2 3, f12  m2 2,
, f13  m2 1, f14  m2 0 
 máx0  8, 2  6, 5  4, 6  1, 7  0 
 máx8,8,9,7,7 
9
d1 4  2
Em suma
u
m3 u 
d 3u 
m2 u 
d 2u 
m2 u 
d1u 
0
0
1
1
2
4
3
5
4
8
0
1
2
3
4
0
1
4
6
8
0
1
0
3
0
...
...
...
...
...
...
...
...
9
2
O retorno máximo que pode ser obtido a partir deste programa de investimento
de três estágios com 4 unidades é m1 4  9 unidades. Para se obter este
retorno:

-
d14  2
6
Afectam-se 2 unidades ao investimento 1 (pastagens),
-
d 2 2  0

Ficam 4  2  2 unidades para o estágio 2. Mas d 2 2  0 , indicando
que nenhuma unidade deveria ser gasta neste estágio se houver 2
unidades disponíveis. Ou seja: não se deve investir em terrenos de
regadio,
-
d 3 2  2
As duas unidades permanecem para o estágio 3. Como
ambas devem ser afectadas ao investimento 3 (Florestas).
d 3 2  2 ,
Portanto o investimento óptimo é afectar 200 000 euro ao investimento em
portagens e 200 000 euro ao investimento em florestas. Não se deve investir
nada
em
regadio.
Assim
obtém-se
o
retorno
f1 2  f 2 2  f 3 2  5  4  9 (900 000 euro).



Exemplo
Um transportador dispõe de 8m3 de espaço disponível num veículo pesado que
faz o trajecto Porto-Lisboa. Um distribuidor com grandes quantidades de três
tipos diferentes de utensílios, todos destinados a Lisboa, ofereceu ao
transportador as seguintes taxas de pagamento para transportar tantos itens
quantos o veículo pesado tem para acomodar:
Utensílios
I
II
III
Taxa
Euro/Item
11
32
58
Volume
m3/Item
1
3
5
Quantos ítens de cada artigo o transportador deveria aceitar para maximizar o
lucro com o frete sem exceder a capacidade disponível no veículo?
Este problema pode ser encarado como um processo de 3 estágios envolvendo
afectações de espaço para os utensílios I, II, III respectivamente. O estado de
cada estágio é o número de metros cúbicos de espaço ainda desocupado.
7
Assim
X
0
1
2
3
4
5
6
7
8
f1x 
0
11
22
33
44
55
66
77
88
f 2x 
0
0
0
32
32
32
64
64
64
f 3x
0
0
0
0
0
58
58
58
58
f
A primeira linha da Tabela é imediata uma vez que todo o metro cúbico
adicional afectado ao artigo I produz um lucro adicional de 11 euro. Para a
segunda linha é necessário ter em conta que cada utensílio do tipo II ocupa
3m3 e, portanto, a menos que se tenha pelo menos 3m 3 de espaço disponível
nenhum ítem deste tipo pode ser transportado e nenhum lucro pode ser obtido.
Se 3, 4 ou 5m3 forem afectadas ao utensílio II somente um ítem pode ser
acomodado, resultando um lucro líquido de 32 euro. Se 6, 7 ou 8m 3 forem
afectados, então podem ser transportados 2 ítens, com um lucro líquido de 64
euro. Uma análise semelhante é aplicada ao ítem III. Nenhum lucro é obtido se
menos de 5m3 forem afectados. E, se, 5, 6, 7 ou 8m 3 forem afectados, apenas
um utensílio III pode ser transportado com um lucro líquido de 58 euro.
Então,
-
m3 8  máx f 3 0, f 3 1, f 3 2, f 3 3, f 3 4, f 3 5, f 3 6, f 3 7, f 3 8 
 máx0,0,0,0,0,58,58,58,58 
 58
d3 8  5
-
(escolheu-se o menor maximizante)
m3 7  máx f 3 0, f 3 1, f 3 2, f 3 3, f 3 4, f 3 5, f 3 6, f 3 7 
 máx0,0,0,0,0,58,58,58 
 58
d 3 7  5
-
(escolheu-se o menor maximizante)
m3 6  máx f 3 0, f 3 1, f 3 2, f 3 3, f 3 4, f 3 5, f 3 6 
 máx0,0,0,0,0,58,58 
8
 58
d3 6  5
-
(escolheu-se o menor maximizante)
m3 5  58
d3 5  5
(escolheu-se o menor maximizante)
Então,
u
m3 u 
d3 u 
0
0
1
0
2
0
3
0
4
0
5
58
6
58
7
58
8
58
0
0
0
0
0
5
5
5
5
Continuando
-
m2 8  máx f 2 0  m3 8, f 2 1  m3 7, f 2 2  m3 6, f 2 3  m3 5,
, f 2 4  m3 4, f 2 5  m3 3, f 2 6  m3 2, f 2 7  m3 1, f 2 8  m3 0 
 máx0  58, 0  58, 0  58, 32  58, 32  0, 32  0,
,64  0, 64  0, 64  0  90
d 2 8  3
-
m2 7  máx f 2 0  m3 7, f 2 1  m3 6, f 2 2  m3 5, f 2 3  m3 4,
, f 2 4  m3 3, f 2 5  m3 2, f 2 6  m3 1, f 2 7  m3 0 
 máx0  58, 0  58, 0  58, 32  0, 32  0, 32  0, ,64  0,
, 64  0  64
d 2 7  6
-
(escolheu-se o menor maximizante)
m2 6  máx0  58, 0  58, 0  0, 32  0, 32  0, 32  0,
9
,64  0  64
d 2 6  6
-
m2 5  máx0  58, 0  0, 0  0, 32  0, 32  0, 32  0 
 58
d 2 5  0
-
m2 4  máx0  0, 0  0, 0  0, 32  0, 32  0 
 32
d3 4  3
-
(escolheu-se o menor maximizante)
m2 3  máx0  0, 0  0, 0  0, 32  0 
 32
d 2 3  3
-
m2 2  máx0  0, 0  0, 0  0  0
d 2 2  0
-
m2 0  m2 1  0
d 2 0  d 2 1  0
-
(tomou-se o menor maximizante)
m3 0  m3 1  m3 2  m3 3  m3 4  0
d3 0  d3 1  d3 2  d3 3  d3 4  0
(escolheu-se o menor
maximizante)
10
u
0
1
2
3
4
5
6
7
0
0
0
32
32
58
64
64
8
90
d 2u  0
0
0
3
3
0
6
6
3
m2u 
Finalmente
-
m18  máx0  90, 11 64, 22  64, 33  58, 44  32, 55  32,
,66  0, 77  0, 88  0 
 máx90,75,86,91,76,87,66,77,88  9
d1 8  3.
O melhor lucro total para o transportador é 91 euro. Para o obter, deve afectar
3m3 ao utensílio I d1 8  3 . Ficam 5m3 disponíveis para os utensílios II e III.

 

Como d 2 5  0 não deve ser afectado nenhum espaço ao utensílio II. Ficam
então ainda 5m3 disponíveis para o utensílio III.
Confirmando, f1 3  f 2 0   f 3 5  33  0  58  91.
11
Download