В данной главе производится анализ базовых обменных схем -схемы, состоящих из двух агентов (рисунок 5).
Доказывается эквивалентность решений детерминированных задач стимулирования и обмена для соответствующей ОС. Осуществляется переход от детерминированной ОС к ОС с внутренней неполной информированностью центра - вводится тип АЭ, не известный центру.
Формулируются условия на зависимость функции предпочтения АЭ от типа, при выполнении которых возможно применение общего метода построения неманипулируемого механизма обмена.
Раздел 2.2 посвящен построению механизмов ОУ в двухэлементных ОС с внутренней неполной информированностью. Рассматриваются дискретный и непрерывный методы построения механизмов ОУ.
Дискретный метод построения неманипулируемых механизмов обмена основан на графическом анализе функций предпочтения агентов. Непрерывный метод является частным случаем предложенного в разделе 1.5 общего метода построения неманипулируемых механизмов обмена.
Доказана эквивалентность двух предложенных методов.
Раздел 2.3 посвящен решению двухэлементных задач обмена без иерархии. Предлагается метод решения подобных задач, основанный на механизмах ОУ для аналогичных двухэлементных иерархических ОС.
Агенты самостоятельно распределяют между собой роли Ц и АЭ. Определяется распределение ролей в зависимости от параметров ОС для квазиинтеллектуальных (не производящих анализ сообщений оппонента) и интеллектуальных (анализирующих сообщения оппонента) агентов.
Полученные автором результаты, содержащиеся в данной главе, были опубликованы в работах [33,34,36,39,41].
2.1. Представление задачи стимулирования в виде задачи обмена
Рассматривается задача стимулирования в АС, состоящей из центра (Ц) и одного активного элемента (АЭ) [18,45,53]. Целевая функция центра Ф((г, у) представляет собой разность между его доходом H(y) и стимулированием s(у) АЭ. Целевая функция АЭ f(s, у) - разность между стимулированием, получаемым от центра, и затратами с(у):
(10) F(s, у) = H(y) -s(у);
(11) As, у) = s(у) - с(у)¦
у е Y - действие АЭ.
Относительно параметров АС принимаем стандартные предположения [18,45,53]:
А.1. 1) функция с(-) непрерывна по действию АЭ; 2) у е Y с' (у) 0;
3) у е Y, с (у) 0; 4) с(0) = 0.
(14) у* = arg max (Я(у) - с (у)}.
yaY
Для рассмотрения действия АЭ как некоего ресурса, область его возможных значений Y можно задать как отрезок [0,Y2]. Сформулируем описанную задачу как задачу обмена. Схема состоит из двух участников (центр и АЭ), один из которых - организатор обмена (центр) обладает полной информированностью о параметрах обменной схемы.
В схеме имеются ресурсы двух типов - деньги и действие. Наложены ресурсные ограничения A = {у 0і + у \ = Yy у 02 + у^ = Y2}
Функция предпочтения центра записывается следующим образом:
(15) j( У і, У 2) = у 0і + H (у 02).
Функция предпочтения АЭ:
(16) j(УЬ У12) = У1! - c(Y2 - У12).
Ограничения индивидуальной рациональности достаточно просты -Щу0) = {?і = 0,1 j(у.) j(у.0)}.
Ограничений на возможность взаимодействия между Ц и АЭ также нет - они могут осуществлять между собой трансферты ресурсов всех типов, присутствующих в модели.
Начальное распределение ресурсов задано следующим образом - весь ресурс первого типа сосредоточен у центра, весь ресурс второго типа - у
АЭ: у0
Значения У, и У2 выбираются таким образом, что бы рассматриваемая модель могла соответствовать определению обменной схемы.
Запишем функции прибыли от обмена для центра:
(17) /о(*15Х2) = jо (У1 - У,Х2) - jo (У1 ,0) = H(х2) - xi;
для АЭ:
(18) /1( Х1, Х2) = jl(X1 У2 - Х2) - jl(0,Y2) = X1 - С(Х2)-
Следует отметить, что заданные ограничения ИР можно достаточно просто выразить через функции прибыли агентов от обмена: IR={ /о( х) 0; /1( х) 0}.
Из чего следует, что множество возможных вариантов обмена задается следующими условиями:
(19)Х=
{ х = (*1, х2): х е [0, YJ n [с(х2), H(х2)]; х2 е [0, У2 ] n arg{H(х2) - с(х2) 0}}
Стандартный порядок функционирования в задаче стимулирования [52] в терминах обменных схем можно сформулировать следующим образом: центр предлагает АЭ некоторый набор вариантов обмена, из которых АЭ выбирает наиболее выгодный с его точки зрения.
Предположим, что целью центра является максимизация его функции полезности от обмена. Также примем, что в данной ОС выполнена гипотеза благожелательности относительно поведения АЭ, заключающаяся в том, что АЭ выбирает из множества решений игры альтернативу, наиболее предпочтительную с точки зрения центра [18,45,52].
Утверждение 1. Решение задачи обмена в рассматриваемой ОС эквивалентно решению задачи стимулирования.
До к а з а т е л ъ с т во. Найдем точку x* = (x1*,x2*), в которой достигается max f0 (x).
В соответствии с принципом индивидуальной рациональности для АЭ имеем:
(20) xi Ф2).
Поэтому можно записать, что
(21) /о (xi, x2) H(xl) - c(x2)-
Следовательно для центра оптимальным будет обмен в точке x = (x1 , x 2 ), где
(22) x2* = arg ІШХ{Я(x2) - c(x2 )} ,
*2е\0.^\
что эквивалентно (14), а x1*= c(x2*), что эквивалентно (13).^
Итак, предположим, что целью центра является максимизация его функции полезности от обмена. Также примем, что в данной ОС выполнена гипотеза благожелательности относительно поведения АЭ, заключающаяся в том, что АЭ выбирает из множества решений игры альтернативу, наиболее предпочтительную с точки зрения центра
\18,45,52\.
Предположим, что целью центра является максимизация его функции полезности от обмена. Также примем, что в данной ОС выполнена гипотеза благожелательности относительно поведения АЭ, заключающаяся в том, что АЭ выбирает из множества решений игры альтернативу, наиболее предпочтительную с точки зрения центра
\18,45,52\.
Утверждение 1 устанавливает эквивалентность задачи стимулирования задаче обмена в детерминированных АС при некоторых требованиях к множествам возможных значений трансфертов ресурсов.
Приведенное выше решение детерминированной задачи обмена можно изобразить графически, используя ящик Эджворта. На левой части рисунка 6 он изображен в классическом виде - в координатах ресурсов с изображением линий равных предпочтений для каждого из агентов.
На правой части рисунка 6 он изображен в преобразованном виде - в координатах трансфертов, с изображением линий равной полезности для каждого агентов.
Задачей центра является поиск вариантов обмена, максимизирующих некий критерий эффективности - критерий эффективности обмена K(xj,x2).
Это полностью соответствует постановке задачи построения механизма ОУ для ОС, введенной в предыдущей главе.
Для решения поставленной задачи необходимо уточнить вид функции полезности от обмена для АЭ. Для этого введем следующие предположение относительно функции c(y,r):
А.4. Ге Q, Х2 е Х
1) c(x2,r) непрерывна по г;
2) dc(*2-r) 0;
dr
3) d2c(*2,r) 0. dx2 dr
4) c(x2,r) удовлетворяет А.1.
Содержательно, данное условие прежде всего показывает, что, чем больше значение типа АЭ, тем меньше его затраты на выполнение одного и того же действия.
Лемма 2. Условие А.4. обеспечивает выполнение условия F1 и F2 для функции прибыли от обмена АЭ f1 (x1, x2, r).
Доказательство. Т.к f1(x1,x2,r) = x1 - c(x2,r), то, с учетом А.4.
dc(.x2, r) 0 dr
dfi( x!, x2,r)
dr
re Q,
т.е. выполнено F1. Также, из А.4. следует
d'c(x2, r) 0 dx2 dr
dfi( xi, x2, r )
dx2dr
re Q,
что соответствует F2a. Также очевидно,
Ге Q,
df1(X1, x2? r) = 0 dx1dr
что соответствует F2b.^
Следовательно, для построения механизма ОУ для данной обменной схемы можно использовать общий метод построения неманипулируемых механизмов обмена, полученные в главе 1.
2.2. Построение эффективных и неманипулируемых механизмов обмена для двухэлементных иерархических обменных схем
Дискретный подход. Рассмотрим случай, когда параметр r (тип АЭ) может принимать только два "граничных" значения, т.е.
АЭ может быть двух типов - с функцией затрат c(y,ro) или с c(y,r1), где го = rmin, п = rmax.
Рисунок 7 иллюстрирует "графический" метод построения неманипулируемого механизма обмена. На рисунке изображен преобразованный ящика Эджворта в координатах трансфертов.
Линия f0(х) = 0 задает ограничения ИР для центра, линии f (x,r0) = 0 и f (x, у) = 0 для АЭ соответствующих типов. Для каждого из возможных типов АЭ выбирается точка на множестве Х - r ® х1 = (х/, х2г).
Запишем множество возможных типов АЭ: Q = (r0,r1,^,rn), r0 = rmin, rn = rmo^x. Тогда для пары .i = (уг, .2), i = 0, n по аналогии с (23) - (26) можно выписать следующие условия: (28) .1 = c(.2 ,ri) + Ci, i = 0,n;
(29) Сі=^(ф2lj\r}_1) - c.1 -1у.Д Co=0, i = 0,n:
j=1
(30) .2 = argmaxK^r), 0 .2 Y2, 0 .1 Y1, i = 0,n.
.2
При сообщении АЭ заявки s = у центр назначает ему план обмена .і = (, .2i). Также сохраняется требования (27):
(27а) i = 1, n, xj, j = 1,2.
Также, очевидно, что если совпадение одной из компонентов плана для разных типов АЭ означают, что планы для данных типов АЭ эквивалентны (можно сказать, что с точки зрения центра данные типы АЭ эквивалентны)
Теорема 2. Если выполнена гипотеза благожелательности, то доминантной стратегией АЭ в предложенном механизме обмена будет сообщение истинной оценки своего типа. Т.е. s = r*.
Доказательство. Запишем прибыль АЭ типа i (r* = ri) - f1(x1,x2,r) при выполнении им плана, предлагаемого для типа j (s = r), используя (28) и (29):
(31) fi(xi\x2 j , r ) = C( x2 j , rj ) + Cj - C(x2 , r ) .
Из (31) получаем, чтоf1(x1i,x2i, ri) = Ci. Также из (31) и (29) следует, что f1(x/-1, x2i-1, r) = c(x2 i-1, r.-j) + C. - c(x21, r) =f\(x\'l,x2l, ri)= Ci. Для случая j
= i + 1 (31) с учетом (29) (выразив Ci+1 через C) можно записать: (32) f (x1i+1 , x2i+1 , r ) = Cr + C(x2i+1 , r+1 ) - c(x2i , r+1 ) + c(x2i , ri ) - C(x2i+1 , r )-
Из условия А.4, с учетом (27а), очевидно, что
C(x2i+1 , r ) - C(x2i , r ) ^ C(x2i +1 , r+1 ) - C(x2i , r+1 ) -
Следовательно, f1( x1i+1, x21+1, r) f1( x1i, x21, r).
Аналогично, можно показать, что j = i + 1,n
f1( x11 , x2 ' , r ) f1( x1 , x2i , ri )-
Для случая j = i - 2 (31) с учетом (29) (выразив Ci-2 через Ci) можно записать:
i-1
i-1
(33) f1(xrz, xrz, r) = Ci +c( xrz, r-1) - c( x^2, r) +c( x^‘, r) - c( x^‘, r--1) -
Из условия А.4, с учетом (27а), очевидно, что
c( x2i -1, r-1) - c( x21-2, r-1) ^c( x2i-1, r) - c (x2i - 2, r)-
Следовательно, f (x/-2, x2i-2, r) /( x/ , x2i, r).
По аналогии с (П.4) можно показать, что j = 0, i - 2
/(xA x2, r)? r )-
Из приведенных выше рассуждений следует, что АЭ типа ri получает максимальную прибыль от обмена при сообщениях s = ri и s = ri-1. Учитывая гипотезу благожелательности, получаем, что АЭ типа r сообщит s = Гі, потому что из двух эквивалентных планов он выберет лучший для центра, т.е. (x1, x2).rn
Т.е. построенный механизм обмена p(s) = (x1(s),x2(s)), определяемый (28) - (30), является механизмом открытого управления. Учитывая, что для двухэлементных задач поиск механизмов планирования можно ограничить классом механизмов ОУ [52], получаем, что дискретный метод позволяет найти механизм обмена максимальной эффективности.
Задача 1. Построить эффективный и неманипулируемый механизм обмена для ОС, рассмотренной в разделе 2.1. Функция полезности центра
2r
от обмена f0(x1,x2) = x2 - x1. Функция полезности АЭ - f1(x1, x2) = x1 -
p( s )
Критерий эффективности центра - максимизация ожидаемой полезности от обмена Ef (p( s)) ^ max. Множество возможных значений типа АЭ -
n+1 точек на отрезке [rOTI,w|, ro = rmim0, rn = rmax. Функция затрат АЭ имеет следующий вид
c( x, r) = .
2r
Данная функция удовлетворяет требованиям А.4. re Q, х 0 1) x2
1) непрерывна по r и по х;
2r
dr
2r2
2) v = - 0;
3) d 2 c( x,r) = -x_ 0.
4) dc(^ = x 0;
dx r
5) -= r 1 0.
dx2
Следовательно, можно построить механизм ОУ p(i) = (х/, х2г). Из (28) и (29) получаем.
г-і х 12 1 1 _
С=І-^(---), i=1, n, Co=0;
i=0 2 1
i _ X2
+ Ci, i = 0, n.
Xi
2r
Механизм должен максимизировать ожидаемую прибыль центра при
ограничениях 0 x2 Y2, 0 х/ Y1, i = 0,n. Т.е. необходимо решить задачу нелинейного программирования:
^ (X,',!') 0; II (X.; ,1) 0; ^ (х/Д-)х/ = 0; ^ (х2\Г)Г= 0; дх2 дЛ дх2 дЛ
х2* 0,Л 0.
Здесь
х2 = (X20,- - - , х2 П ), Л = (Л0 v**? Л2п+1 ) , L = E/0 + S[12i (Y2 " х2 ) + Л2і +1 (Y " хі' )]-
i=0
Учитывая, что
e/c(W) = S Pi(х2 -х1) = S
Ріх2 ~^Г( + (---) S Pi
2 . r.,, i=i+1
+ +( -*2
2r
х2\Pi + , 1 1
i i i+1
Y2), i=0, n - 1, х2п = min(n ,x2,Y2);
1/2
i-1 r r 1 2
х2 =
2Y - S (- )х
1 =0 r1 r1 +1
1 1 +1
, i=0, n;
i2 1 2
. і- х/ , 1 К .
-4 i х2 х2 / 1 1 ч . 1 0 х2
(35) х =-^~ + S^(---), i=1,n, х1 = 2
2 i=0 2 .+.
i 1 1 +1
2r
Точки i=0, n - значение трансферта типа 2 при выходе наограничение х/ Y1. Очевидно, что если для некого типа АЭ данноеограничение вступает в силу (x2L=x2 ), то для всех j=l +1, n x2J= ~2J=~21 .Т.е. планы для всех типов АЭ, начиная j и лучше, совпадают.
При этом планы для типов АЭ, хуже j остаются неизменными.
то (34)
Если распределение типа АЭ взять равномерным - pt = можно переписать следующим образом:
1
х2 г = min(
,~2i,Y2), i=0,n - 1, X2n = min(r,~2n,^2).^
i+1 J
Задача 2. Построить эффективный и неманипулируемый механизм обмена для ОС с линейными функциями полезности Ц и АЭ: (36) /о( X1 X2) = х2 - ^ (37) f1(Xn X2) = rX1 - Х2 .
Данный вид функций полезности используется чаще всего при описании процессов обмена между крупными промышленными предприятиями. Задача центра - максимизация гарантированной
fo(p( s))
max /odet( s)
относительной прибыли от обмена
min
® max. Множество
p
возможных значений типа АЭ - n+1 точек на отрезке [rmin,rmax], r0 = rmin0,
rn rmax.
Распределение ресурса в схеме такое же, как в рассмотренном выше примере - весь ресурс первого типа Y1 сосредоточен у центра, весь ресурс второго типа Y 2 - у АЭ. Причем существенным будем считать ограничение на ресурс первого типа.
i 1 i mn
Механизм имеет следующий вид: х2г = junYl(rl - c(1-)), х/ =-Y1,
рi m
rn - r0
-)-1, i=0, n .-
m = (1 + _
n J=1 rJ - c
Получив механизм ОУ для задачи обмена в схеме из двух участников с внутренней неопределенностью в случае дискретного распределения
возможных типов АЭ, перейдем к рассмотрению непрерывного случая распределения.
Непрерывный подход к построению эффективного и неманипулируемого механизма обмена для базовых ОС основан на методе, изложенном в разделе 1.5.
В непрерывном случае область возможного значения типа АЭ будет задаваться как отрезок - Q = [rmin,rmax\. Получаем, что механизм ОУ p(s) = (x1(s),x2(s)) должен удовлетворять следующим требованиям:
dx1
dr
x(x2(r xr) Х~(г )=0;
dx dr
(r)
Xx(x2(r ^ r) IT*) 0'
ox or dr
dx1 dx2
-Т-(s ) 0,-^(s ) 0.
ds ds
Обе компоненты плана являются неубывающими функциями своего аргумента s eQ
Так как наихудшим из возможных типов АЭ является тип rmin, то, с учетом условий ИР n1 (rmn) = 0. Выражение (9) для рассматриваемого случая запишется следующим образом:
де
dr(X2(t),t)dt .
Учитывая, чтоni(r ) = X1(r) - e(x2(r), r^ можно сделать замену переменныхr де
(39) X1(r) = C(X2(rX r) - { (X2(t),t)dt,
/ dr
которая позволяет свести задачу построения механизма ОУ к решению следующей задачи.
(40) X2(r) = argmaxK(x1,x2,r), 0 X2(r) Y2, 0 xi(r) Yb
x2
Произведем проверку эквивалентности дискретного и непрерывного решений рассматриваемой задачи. Переменная n отражает мелкость
x]:
разбиения множества Q = [rm
r0 = r . , r
0 min 5 г
¦ * - ;- Л r - r.
r0 + гД, г = l...n, Д =
0n
Справедлива следующая лемма
Лемма 4. n(r) = lim Сг, где Сг определяется из (29), n(r*) - из (38).
П®?
Доказательство. Выражение (29) можно переписать следующим образом:
С= ^(ф1 гя) - Ф21-1 ,r--1 + A)), Co=0, i = 0...n
j =0
Очевидно, что
H®n(c(x2- c(x21-1 ,r.-i +A))=-|r(x21-1,ri-i)^r.
Учитывая, что x2 г соответствует r, т.е x2 г = x2(r), получаем, что
3c
3r
lim С = lim С = f
n®? г Д®0 г J
(x2(r),r)dr.B
r.
min
Как следствие леммы 4, получаем, что при n ® ?, выражения (28) и (39) эквивалентны. Т.е. решение задачи в дискретном случае соответствует решению задачи в непрерывном случае.
Проиллюстрируем полученное решение на примере.
Задача 3. Построить эффективный и неманипулируемый механизмобмена для ОС, рассмотренной в разделе 2.1. Функция полезности центра
2
2r
Множество
от обмена f0(x1,x2) = x2 - x1. Функция полезности АЭ - f1(x1, x2) = x Критерий эффективности центра Ef0(p(s))^max.
p( s )
возможных значений типа АЭ -отрезок [rmin,rmax], rmin0.
Функция затрат АЭ имеет следующий вид
c( x, r) = ¦ 2r
Как было показано в примере 3, данная функция затрат удовлетворяет требованиям А.4. В соответствии с (39) получаем
х(г У + fx2(t)’dr.
X1(r)=
2r / 2r2
'min
Задача динамического программирования, которую необходимо решить для построения механизма ОУ:
(41ШП) = 'J[X2(r)- Xx2L _ j xtф(г)dr®max,
2r2
(42) 0 X2(r) Y2, 0 xjfr) Y1.
Предположим, что ограничения (42) выполнены для r eQ, т.е. множество вариантов обмена , составляющих механизм ОУ, лежит внутри множества возможных вариантов обмена. В таком случае решение (41)
= 0. Т.е.
сведется к решению уравнения
Ео
dx.
1 - ^ ^ 1ТМ = о, где F (r) = j r s )ds.
r r p(r) L
(43) X2(r) =
Получаем, что механизм ОУ будет иметь следующий вид r 2p(r)
rp(r) +1 - F (r)
X2 (r)2 I fX2(t)
(44) x1(r) =
-dt, r eQ.
2r
2r2
m.n
, r- r . F (r) = min
Для равномерного распределения типов АЭ -механизма ОУ можно упростить:
, вид
r - r.
max min
r
(45) x2 (r) =-, r eQ;
4r3 - r3.
6r
(46) x1 (r) = _ 2 min , r eQ.
Оценим ожидаемую прибыль центра от обмена при применении механизма (45), (46)
+ r r ¦ + r ¦ ) .
max max min mm /
Б/0(П) = -^(r, 6r
Сравним полученный результат с ожидаемой полезностью, получаемой при решении эквивалентной задачи стимулирования путем построения механизма без сообщения информации АЭ центру [48]: rr
Ef (П) = maxpjjS-y-].
Сравнение ожидаемой полезности для двух механизмов показывает, что при условии на Q:
^ (1W3) .
r ¦
min
механизм открытого управления с сообщением информации эффективнее механизма, описанного в [48], при равномерном вероятностном распределении типа АЭ на множестве возможных типов. Преимуществом механизма открытого управления является тот факт, что обмен совершается с АЭ любого типа, в то время как в механизме без сообщения
r
информации АЭ типа хуже, чем , вынужден отказываться от обмена.
Вернемся к рассмотрению поставленной задачи в случае, когда ограничения (42) существенны. Выражение (43) можно трактовать, как фазовую траекторию, соответствующую оптимальному управлению. В соответствии с принципом оптимальности Беллмана [28] - отдельный участок оптимальной траектории является также оптимальной траекторией.
Т.е решение задачи (41) сохранит свой вид в области r eW = [Гшп,~], где ~ = min(arg{xx(r) = Yl},arg{x2(r) = YJ}. Для r е Q / Q' = (r; rmax] p(r) = p(~). Для равномерного распределения типов