Принципы функционирования АНС
Раскроем основные положения и подходы метода АНС, отталкиваясь от общеизвестных математических понятий.
В основе алгоритма АНС лежат принципы регрессии. Существует два типа регрессии, использующие различные подходы: среднеквадратическая регрессия и среднеквадратическая ортогональная регрессия. Поясним их на примере простой аппроксимации.
При обычной среднеквадратической регрессии одна из переменных, например x , является независимой, и ее значения известны или могут быть точно выбраны.
Предполагается, что другая переменная y зависит от x .
Данные наблюдений переменных x и y можно представить в виде совокупности точек на плоскости с координатами X и Y . Каждая такая точка будет иметь координаты ( , )i i x y , где i 1, 2, ... N . В данном случае N . Общее число наблюдений. Для привязки к практической ситуации можно представить, что наблюдается группа предприятий. Каждое из этих предприятий характеризуется двумя основными балансовыми показателями: суммой активов ( x ) и размерами полученной прибыли ( y ). Очевидно, что абсолютный размер полученной прибыли в определенной степени зависит от суммы активов. Чем больше активов имеет предприятие, тем больше прибыли оно может получить. Но эта зависимость в обще случае нелинейна, так как она зависит от эффективности работы каждого предприятия. В математическом понимании свойство нелинейности (nonlinearity) относится к отображению (связи между переменными x и y ), которое нелинейно или при котором выходной сигнал ( y ) не пропорционален входному ( x ). Иначе говоря, график зависимости y f (x) нельзя представить на плоскости XY в виде прямой линии.
Чтобы все же получить эмпирическую формулу зависимости y f (x) можно попытаться аппроксимировать группу точек, полученных в результате наблюдения, с помощью простой функциональной зависимости (например, полиномиальной, экспоненциальной, логарифмической, гауссовой и т.д.), подбирая значения небольшого числа параметров, входящих в эту зависимость. В результате будет определенынесколько функций аппроксимации, каждая из которых описывается своей функциональной зависимостью y f (x) . Считается, что при заданных ограничениях (которые в данном случае представлены ограниченным набором функций аппроксимации) функция аппроксимации при среднеквадратической регрессии оптимальна в том случае, если сумма квадратов вертикальных расстояний до точек исходных данных является минимальной. Иначе говоря, необходимо найти каждую функцию аппроксимации, нанести ее на плоскость XY , провести от каждой точки наблюдений ( , )i i x y вертикальную линию до пересечения с функцией аппроксимации, измерить полученные отрезки и сложить квадраты их длины по всей совокупности наблюдений i 1, 2, ... N . Далее необходимо сравнить полученные суммы для всех линий аппроксимации между собой и найти минимальную по величине. Соответствующая этой минимальной сумме кривая аппроксимации и будет считаться оптимальной при среднеквадратической регрессии.
Предположим теперь, что ни x , ни y не известны точно, а представляют собой случайные величины. Это как раз соответствует описанному выше практическому примеру, так как при наблюдении (в процессе выборки значений сумм активов и балансовой прибыли предприятий из базы данных по произвольной группе компаний) конкретные значения этих показателей заранее не известны. В этом случае оптимальная кривая аппроксимации проводится таким образом, чтобы сумма квадратов ортогональных расстояний от этой линии до точек, изображающих исходные данные, была минимальной. В отличие от рассмотренной выше среднеквадратической регрессии эти расстояния соответствуют длине перпендикуляра, проведенного к аппроксимирующей линии из соответствующей точки. Данный метод носит название среднеквадратической ортогональной регрессии.
Как правило, среднеквадратическая регрессия применяется при оценке параметров, а среднеквадратическая ортогональная регрессия чаще используется для сглаживания, особенно графического.
Возвращаясь к взятому практическому примеру, среднеквадратическую регрессию целесообразно использовать, чтобы оценить, каким образом любой выбранный параметр, например прибыль предприятия, зависит от времени (независимой в данной случае величины). Она позволяет получить математически определенную функцию, параметры которой, даже не глядя на график исторических данных, дают возможность судить: растет эта прибыль или падает. Например, если оптимальная функция аппроксимации . степенная y f(t) ta, то показатель дает полную информацию о тенденции. Если a 1, прибыль растет (тем в большей степени, чем больше a ).
Если a 1, прибыль падает.
Среднеквадратическая ортогональная регрессия, как уже было показано выше, дает возможность представить зависимость случайных значений выборки сумм активов и балансовой прибыли по группе предприятий в виде математической функции y f (x) . Иначе говоря, от хаотического набора точек на плоскости XY можно перейти к сглаженной линии.
Метод АНС можно рассматривать как некую специальную разновидность регрессии, причем более близкую к ее ортогональной разновидности. Строго математически его можно определить как анализ главных кривых при непараметрической регрессии, который является обобщением среднеквадратической ортогональной регрессии. Он реализуется с помощью нелинейной двумерной регрессионной модели. Регрессия в данном случае относится к классу непараметрических методов, так как не требует априорных предположений о форме распределения данных (в рассмотренном примере . не требуется задавать явным образом законы распределения случайных величин . суммы активов и балансовой прибыли компаний). Понятие главных кривых будет рассмотрено ниже, оно тесно связано со специфической разновидностью аппроксимации . «интеллектуальной» криволинейной аппроксимацией.
Рассмотрим простейшую операцию, которая напоминает регрессию и хорошо иллюстрирует принципы простейшей . одномерной АНС. При обычном регрессионном анализе аналитический вид функциональной зависимости должен быть заранее выбран исследователем из фиксированного набора функций аппроксимации. В ходе вычислений с помощью известных алгоритмов подбираются лишь значения входящих в функцию аппроксимации параметров. Например, если выбрана степенная функция аппроксимации y f(x) xa, то в ходе вычислений исследователем задается начальное значение единственного параметра 0 a , далее оно последовательно меняется на величину некоторого приращения a . На каждом шаге вычисляется сумма квадратов расстояний от каждой точки наблюдения до функции аппроксимации и заносится в память машины. После достижения определенного исследователем конечного значения a a n a k 0 , где n . число шагов вычислений анализируется ряд занесенных в память данных и определяется наименьшая сумма квадратов. Значение параметра j a , которое соответствует наименьшей сумме квадратов, принимается в качестве оптимального значения параметра функции аппроксимации: a j
опт y f (x) x. Если функция аппроксимации полиномиальная, например y b cx2 , то последовательными шагами b и c определяются оптимальные значения двух параметров ij b и ij c , которые соответствую ячейке матрицы значений параметров, в которой записана минимальная для этой матрицы сумма квадратов. Строки такой матрицы формируются изменением параметра b , т.е. ( b b i b i 0 ), а столбцы . параметра c , т.е. ( c c j c j 0 ). Оптимальная функция аппроксимации в данном случае имеет вид: y f (x) b c x2 опт ij ij . Подобным образом вычисляются параметры любой функции аппроксимации. Матрица параметров при этом имеет размерность, равную числу независимых параметров функции аппроксимации. Очевидно, что при сложных многопараметрических функциях и большом числе точек наблюдения объемы вычислений оказываются очень велики.
Дополнительная проблема связана с тем, что наилучший вид функциональной зависимости, которую следует использовать при аппроксимации, исследователь не всегда может легко определить заранее. Поэтому ему приходится каждый раз визуально оценивать распределение точек на плоскости XY и экспериментировать с несколькими функциями. Если же входные данные не двумерны, как это принято в рассмотренном выше примере, а многомерны, то простая визуальная оценка распределения входных данных вообще невозможна. В этом случае вид аппроксимирующей функции исследователь вынужден определять простым перебором, что дополнительно усложняет анализ и многократно увеличивает время вычислений.
В некоторых случаях расчетная кривая может очень хорошо аппроксимировать некоторую часть данных и в то же время значительно отклоняться от некоторых из них. Попытки использовать более «гибкие» кривые, задаваемые, например, полиномами большой степени, могут привести к переаппроксимации. В такой ситуации аппроксимирующая функция неверно характеризует тенденции исследуемого процесса, так как не учитывается тот факт, что случайные выбросы в данных не содержат никакой полезной информации, а лишь вносят информационные помехи в результаты анализа. Классические методы обеспечивают возможность эффективной фильтрации случайных выбросов входных данных только при небольшой размерности входного массива. Если же, например, используются данные такой размерности, как массив балансовых показателей предприятия, эффективная фильтрация стандартными методами неосуществима.
На практике возможности фильтрации ограничены лишь одномерными рядами (или, в лучшем случае, двумерными матрицами) отдельных входных параметров. Например, можно отфильтровать в потоке информации показатели, свидетельствующие об отрицательном значении активов предприятия, или показатели высокой чистой прибыли при отрицательной ликвидности.
При использовании метода «интеллектуальной» аппроксимации вид функциональной зависимости не считается заданным a priori. Он автоматически определяется входными данными и некоторыми заранее заданными ограничениями.
Чтобы описать сущность «интеллектуальной» аппроксимации, необходимо от аппроксимации данных наблюдений с помощью некоторой непрерывной кривой перейти к аппроксимации с помощью линии, образованной дискретным множеством соединенных друг с другом точек, именуемых узлами. Такой подход не меняет основной сути представленных выше рассуждений и алгоритмов. Все аппроксимирующие узлы по-прежнему лежат на аппроксимирующей линии в той последовательности, в какой эта линия проходит через пространство входных данных. Необходимо иметь в виду лишь то, что отрезки, используемые для вычисления суммы квадратов расстояний от аппроксимирующей линии до точек входных данных, будут не вертикальными, как в случае среднеквадратической регрессии, и не перпендикулярными аппроксимирующей линии, как в случае среднеквадратической ортогональной регрессии, а просто будут соединять точки входных данных с ближайшими узлами. Кроме этого сама аппроксимирующая линия будет выглядеть как набор направленных прямых отрезков, соединяющих соседние узлы.
Рассматриваемые узлы, как и входные данные, представляются множествами вещественных чисел. Они также могут быть описаны координатами в пространстве входных параметров. Любая точка с известными координатами может быть представлена как вектор, проведенный из начала координат (точки, где все входные параметры принимают нулевое значение) к данной точке с известными координатами в пространстве входных параметров. Упорядоченные (вдоль условной аппроксимирующей линии) множества узлов принято именовать модельными векторами.
Рассмотрим снова двумерное пространство наблюдений (т.е. отражающее только две величины: x и y ).
Конкретный смысл этих величин также может быть сохранен: сумма активов ( x ) и балансовая прибыль ( y ) некоторого предприятия. Набор таких показателей для некоторой группы предприятий из базы данных, в общем случае, случаен по каждому из показателей. Обозначим символом r (x, y) соответствующий случайный вектор данных наблюдений. В данном случае он представляет собой некоторое множество совокупностей, так как наблюдений (предприятий), которые характеризует данный вектор, много. Каждое дискретное значение этого вектора ( , ) i i i r x y , где i 1, 2, ... N , представляет собой одно предприятие из выборки. Значение N по-прежнему характеризует общее число предприятий в выборке.
Введем некоторое множество модельных векторов или узлов, которые будут представлены аналогично входным данным в виде двумерных векторов:
Индексы x и y в нижней части модельных векторов означаю их проекции соответственно на оси координат входных показателей X и Y . Значение K характеризует общее число используемых в данном случае модельных векторов.
Далее определим фиксированные коммуникационные связи между заданными парами узлов. В целом задача состоит в том, чтобы аппроксимировать точки вектора r (x, y) , изображающие данные, к узлам ( , ) x y m m m регулярным образом, как если бы они были расположены на гибкой аппроксимирующей кривой.
Применительно к данному методу понятие «регрессия» означает, что для каждого наблюдения ( , )i i i r x y необходимо определить, в первую очередь, ближайший узел ( , ) k xk yk m m m , называемый «победителем». Как и в случае среднеквадратической регрессии, «расстояние» между двумя значениями векторов этих вычисляется как норма их векторной разности, где норма или длина N—мерного вектора ( , )x y d d d обозначается, как d и определяется соотношением:
В данном случае используется норма векторной разности в наиболее простой и очевидной аксиоматической трактовке геометрии (Euclidean geometry), т.е. как скалярное значение отрезка, соединяющего концы векторов. Для подобных случаев часто используется термин «евклидова норма».
Пусть ближайший узел-победитель i m , который будем обозначать как П m , определяется условием:
Следует обратить внимание, что в данном случае индекс евклидовой нормы обозначается не индексом узла k , а индексом единичного значения входного вектора i .
Это обстоятельство весьма существенно, так как означает, что узел-победитель соотносится с конкретным вектором входных данных ( , )i i i r x y , к которому он является ближайшим по сравнению с остальными узлами. В дальнейшем будет показано, что данное обстоятельство имеет большое значение для всего вычислительного алгоритма, так как некоторые из K узлов могут оказаться ближайшими, возможно, не к одному вектору входных данных.
Другие узлы, напротив, могут оказаться не связанными ни с одним вектором. При определении же евклидовой нормы для каждого единичного значения входного вектора (соответствующего в данном случае связанной паре показателей одного предприятия) перебираются все значения модельного вектора. После этого определяется минимальное значение, которое по аналогии с соответствующим ему узлом-победителем можно обозначить как
Далее в соответствии с алгоритмом АНС необходимо скорректировать положение узла П m , а также его соседей по цепи (в обе стороны вдоль аппроксимирующей линии) в направлении точки ( , )i i i r x y в соответствие со значением i П r m .
Процедура нахождения узла-победителя, а также коррекции положения этого узла и его соседей должна повторяться заново для всех N наблюдений переменной r (x, y) .
Начальные значения модельных векторов
Если идентифицировать как данные наблюдений, так и модельные вектора с помощью индекса
Математическое объяснение этому состоит в том, что на любой финансово-экономический показатель деятельности предприятия всегда воздействует множество внешних по отношению к нему случайных факторов. Поэтому в соответствии с предельной теоремой распределение такого показателя можно считать гауссовым (gaussian). Вероятности появления различных значений такого показателя хорошо описываются нормальным распределением или колоколообразной кривой со смещением относительно нулевого среднего значения в сторону наиболее вероятного (в соответствии с величиной других балансовых показателей и историей изменения выбранного показателя) значением.
В данном случае процедуру аппроксимации можно описать математически как последовательность шагов, которая строится на последовательном переборе всех значений вектора r (t) . При этом на каждом шаге определяются поправки для узлов m (t) k , расстояние которых от узла-победителя П m не превосходит некоторой определенной величины. Новые значения модельных векторов для таких узлов находятся из следующего уравнения:
Для остальных узлов значение модельных векторов не меняется, т.е. для них:
Если «победителем» окажется, например, узел 7 m , и расстояние, на которое передается влияние соседних узлов, будет равно 2, поправки внесутся в положения узлов m5 , m6 , m7 , m8 и m9 .
Значение коэффициента коррекции (t) , который называется фактором скорости обучения, всегда должна удовлетворять условию: 0 (t) 1
Значение (t) должно быть постоянно для каждого узла-победителя в процессе однократного перебора всех значений вектора r (t) . Однако в ходе осуществления коррекции узлов, соседних с узлом победителем, эта величина должна плавно убывать в направлении границ области коррекции. Для случая, описанного в предыдущем абзаце, значения (t) могут быть, например, такими:
После первого перебора всех значений входных параметров и первого цикла коррекции модельных узлов производится последующий перебор и коррекция и т.д. При этом при переходе от цикла к циклу величина (t) также должна убывать. Точнее, при переходе от цикла к циклу должна плавно убывать максимальная величина (t) , соответствующая коррекции координат узловпобедителей. При этом, разумеется, должно пропорционально убывать и значение коэффициентов коррекции в направлении от узла-победителя к границам области коррекции.
Очевидно, что, в конечном счете, это должно привести к уменьшению области коррекции и сокращению ее амплитуды. Таким образом, в конечном цикле должны корректироваться лишь координаты трех узлов: узлапобедителя и двух соседних с ним узлов, а амплитуда такой коррекции должна быть минимальной. Практика показывает, что в результате такого подхода процесс корректировки значений модельных векторов протекает относительно гладко. Иногда (при неудачном выборе начальных модельных векторов) отмечается некоторая неустойчивость процесса в самом начале. Однако со временем процесс сам собой всегда стабилизируется и дает хорошие конечные результаты.
Выбор закона или алгоритма, по которому (t) уменьшается до нуля, не является для данного метода принципиальным. Можно, например, определить, что (t) приближается к нулю по линейному закону за M циклов, где значение M превосходит количество узлов K , по меньшей мере, в 100, а еще лучше . в большее число раз (что ограничивается только общим временем вычислений).
Однако важно, чтобы расстояние вдоль цепи, на которое передается влияние узла-победителя, вызывающее изменения в положении его соседей, изначально было большим. Интуитивно понятно, что в предельном случае это расстояние должно равняться половине протяженности цепи. При этом если победителем оказывается узел, расположенный в середине цепи, то он будет влиять на всю цепь. Если подобный узел находится вблизи одного из концов цепи, влияние его будет ощущаться только на половине ее протяженности.
По мере того как от цикла к циклу (t) приближается к нулю, расстояние, на которое передается влияние узла-победителя, вызывающее изменения в положении его соседей, также может уменьшаться дискретными шагами по линейному закону.
Интуиция подсказывает, что последовательность подобных операций рано или поздно приведет к образованию цепи, имеющей гладкую форму. Однако обосновать этот феномен математически чрезвычайно сложно.
Описанный выше процесс более всего соответствует определению кусочной регрессии. Аппроксимирующий входные данные участок цепи определяется в ходе процесса самоорганизации, посредством которого определяется модельный вектор с наименьшим отклонением от данных. Совокупность компонент модельного вектора в методе АНС часто называют главными кривыми.
Вместо фиксированных связей между узлами в общем случае также можно определять силу взаимного влияния ij h для любой пары узлов в сети как функцию индексов, соответствующих этим узлам:
Рассмотрим теперь более общий многомерный случай. Допустим, что множества примеров данных представляют собой n -мерные вещественные векторы данных:
где t рассматривается как индекс данных: t 1, 2, ... n .
Иными словами, одно наблюдение представляет собой n показателей, а пространство данных n -мерно.
На практике это соответствует выборке из базы данных по одному предприятию n исторических наборов данных. Причем каждый набор представляет собой n различных финансово-экономических показателей предприятия (что уже в целом соответствует реальной ситуации обработки).
Аналогично каждому узлу поставим в соответствие n -мерный модельный вектор. Поскольку модельные векторы изменяются в результате отклика на данные r (t) , t 1, 2, ... n , последовательно используемые в алгоритме, можно записать следующее:
Основной целью алгоритма АНС визуальное представление пространства входных данных на двумерной плоскости выходных параметров. Поэтому определим взаимосвязи между модельными векторами так, как если бы они были направлены вдоль некоторой гибкой двумерной сети. На каждом шаге определения фиксированных коммуникационных связей между парами узлов, в первую очередь, как и в рассмотренном выше случае, всегда определяется индекс узла-победителя. Им является тот узел, который в смысле евклидовой нормы оказывается ближе всех к текущему вектору входных данных:
Затем производится корректировка положения узла-победителя и всех узлов из его окрестности:
Фактор скорости обучения (t) (0 (t) 1) уменьшается с ростом значений t . В общем случае он может быть объединен со скалярной функцией соседства h (t) ijс .
Несмотря на то что, на первый взгляд, уравнения (1) и (2) выглядят просто, необходимо обратить внимание на присутствующий в символической записи функции соседства h (t) ijс индекс с . Это . переменный индекс, и его значение зависит от всех r (t) и всех m (t) k , причем такая зависимость не является непрерывной. Это обстоятельство усложняет программную реализацию данного алгоритма.
Метод АНС определяет подгонку «интеллектуальной» сети к зависящей от r (t) функции плотности распределения p(r ) вектора входных данных в n -мерном пространстве. Его основой является так называемая программа вызова (recall schedule), в которой задается, каким образом в процессе вызовов изменяются параметры, связанные с откликом сети. Алгоритмы этой программы были описаны выше.
Асимптотические свойства алгоритма АНС в общем случае пока строго математически не доказаны.
Кроме этого, не определена аналитическая форма предела сходимости и не доказано, что он является единственным.
Положительные ответы получены только для частных случаев. Однако двадцатилетняя практика использования самоорганизующихся сетей показывает, что при условии осмысленного выбора значений (t) и h (t) ij , а также начальных значений модельных векторов * k m , сходимость действительно всегда наблюдается.
Чтобы понять математическую основу данного утверждения, высказанную здесь в форме постулата, рассмотрим некоторые общетеоретические понятия.
АНС относится к общему классу динамических систем (dynamic system), под которыми понимаются системы, состояние которых изменяется с течением времени.
Простой разновидностью динамической системы является система линейных уравнений. Система нелинейных уравнений определяет нелинейную динамическую систему. В математике система, описываемая дифференциальным или разностным уравнением, . это система, изменение состояния которой является функцией времени или параметров системы. Состояния узлов, а значит . Состояние рассмотренной выше АНС . как раз является функцией и времени, и входных параметров системы (хотя в виде дифференциальных или разностных уравнений она здесь не описывалась). Поэтому АНС полностью подпадает под определение нелинейной динамической системы.
Начальная точка динамической системы называется начальным состоянием. Конечная точка или точки определяются термином состояния равновесия. В промежутке между ними находятся переходные состояния. Динамическая система может иметь два типа состояний равновесия . периодические и апериодические. Апериодическими состояниями равновесия являются так называемые хаотические или странные аттракторы.
Для того чтобы пояснить значение термина «аттрактор», рассмотрим сначала понятие фазового пространства.
Фазовое пространство ( phase space) имеет форму графика (в общем случае многомерного), на котором показаны все возможные состояния системы. В фазовом пространстве значение каждой переменной показано в зависимости от всех остальных переменных в тот же момент времени. Если система описывается n переменными, фазовое пространство имеет n измерений, причем каждой переменной соответствует одно измерение. Аттрактор (attractor) представляет собой точку, соответствующую устойчивому состоянию нелинейного динамического процесса. Мерой динамики на аттракторе является показатель Ляпунова (Lyapunov exponent). Каждое измерение фазового пространства характеризуется показателем Ляпунова. Положительное значение этого показателя является мерой чувствительности к начальным условиям или мерой расхождения предсказания, основанное на различных начальных условиях. Для систем, которые не имеют устойчивого состояния, характерно наличие, по меньшей мере, одного положительного показателя.
Хаотический аттрактор (chaos attractor) соответствует детерминированной нелинейной динамической системе, бесконечная последовательность состояний которой выглядит случайной. Он характеризует апериодическое равновесное состояние динамической системы. Однако, не смотря на то, что система в состоянии хаотического равновесия как бы «случайно» блуждает по различным состояниям, ее поведение является детерминированным, так как математическое уравнение его точно определяет.
Если точно известны это уравнение и состояние системы в данный момент, можно предсказать любую точку на ее хаотическом пути или траектории. Хаос обладает следующим свойством: если выбрать любые две начальные точки для хаотической системы, независимо от того, насколько они близки, начинающиеся в них пути будут расходиться со временем. Хаотическая система должна иметь фрактальную размерность и обладать чувствительностью к начальным условиям.
Странным аттрактором (strange attractor) является такое состояние равновесия в фазовом пространстве, в котором точки никогда не повторяются и орбиты никогда не пересекают друг друга. Однако как точки состояния системы, так и орбиты всегда остаются внутри некоторой области в фазовом пространстве. Если система оказывается в одной из таких областей, она будет двигаться вокруг нее все время или пока внешние воздействия не переведут ее новое состояние, причем в этом движении не наблюдается структуры или периодичности. Так как странные аттракторы являются непериодическими, они, как и хаотические, в общем случае, имеют фрактальную размерность. Странные аттракторы являются частной конфигурацией нелинейной хаотической системы.
Отрицательное значение показателя Ляпунова в каком либо измерении фазового пространства является мерой того, насколько точки сходятся друг к другу. При наличии определенного числа отрицательных значений показателя Ляпунова в фазовом пространстве возникают периодические аттракторы. В общем случае такие аттракторы существуют в виде предельного цикла, когда система повторяет один и тот же путь.
Аттрактор, для которого все траектории в фазовом пространстве сходятся к одной точке или величине, в нелинейной динамике называется точечным аттрактором (point attractor). Точечный аттрактор является предельным случаем периодического равновесия. Любая система, которая стремится к одному устойчивому состоянию равновесия, будет иметь точечный аттрактор. В этом случае фазовое пространство стягивается в точку, где скорость изменения состояний системы равны нулю. Нередко точечный аттрактор принимается также за нулевые координаты системы (центр системы координат многомерного фазового пространства). Все показатели Ляпунова точечных аттракторов отрицательны.
Для любого частного случая АНС (при заданных параметрах системы, которые в данном случае характеризуются совокупностью векторов входных данных r (t) и модельных векторов {m (t)} k ) можно определить показатели Ляпунова по всему n -мерному фазовому пространству. Для этого динамическую систему первоначально необходимо описать с помощью дифференциальных или разностных уравнений (которые здесь не рассматриваются ввиду ограниченности объема монографии). Практика анализа самоорганизующихся сетей показывает, что все показатели Ляпунова в подобных случаях оказываются отрицательными. Именно это и дает основание полностью принять здесь гипотезу о сходимости АНС к одному устойчивому состоянию, которое является точечным аттрактором данной динамический смысл.
Интересным свойством алгоритма АНС является то, что в результате подгонки «интеллектуальной» сети к данным может быть получена любая из ряда конфигураций, связанных друг с другом преобразованиями симметрии. Однако на практике направления могут быть изменены впоследствии на дисплее компьютера любым желаемым способом.
В случае неудачного выбора начальных значений модельных векторов * k m возможно появление локально устойчивых конфигураций сети, не соответствующих наилучшему результату. Однако в большинстве случаев АНС, образованная такими векторами {m (t)} k , в процессе вычислений все же упорядочивается и принимает желаемую форму. На практике, если нет возможности заранее определить наилучшие начальные значения модельных векторов * k m , оптимальная конфигурация выбирается в результате нескольких испытаний с разными наборами * k m .
С учетом подробно рассмотренных выше алгоритмов непараметрической среднеквадратической регрессии и «интеллектуальной» криволинейной аппроксимации рассмотрим нейросетевую модель АНС.
Сначала определимся с математической проблемной областью, в рамках которой рассматриваются адаптивные сети. В целом она относится к теории множеств (set theory), используемой для исследования множеств или классов объектов. Множество является основным понятием в математике точно так же, как символ является основным понятием логики. Логика и теория множеств составляют фундамент данного раздела математики. В теории все символы алгоритма АНС являются только стенографической записью множеств и логики. Здесь необходимо рассмотреть также понятие подмножественности (subsethood), которое означает степень принадлежности одного множества другому. В классической теории множеств не допускается существования нечетких или многозначных множеств, элементы которых принадлежат множеству в некоторой степени. Каждое множество содержит элементы целиком или не содержит ни одного элемента. Аналогично в классической теории некоторое множество содержит подмножество полностью или не содержит никаких подмножеств. В нечеткой логике существуют градации этого понятия. Это означает, что подмножественность, или величина включения (containment value), может принимать любые значения от 0 до 100%. Мера подмножественности дается теоремой подмножественности. Эта теорема предлагает новый подход к понятию вероятности события.
В данном случае используем понятие нечеткого множества (fauzzy set), элементы которого принадлежат ему в той или иной степени. В этом понимании события (в данном случае они ассоциируются с поступлением на вход АНС конкретных наборов финансово-экономических показателей предприятий), в конечном счете, аппроксимируются на нечеткие множества кластеров на плоскости выходных параметром. Иначе говоря, на один кластер могут проецироваться несколько событий. В данном случае это является фундаментальным принципом классификации входных данных с помощью образов (кластеров), выявляемых на выходе адаптивной сети.
АНС представляет собой адаптивную нечеткую систему (adaptive fuzzy system), которая по входным данным вырабатывает свои правила, или систему, которой человек-эксперт не сообщает, каковы эти правила. Нечеткие правила выводятся из соотношений между входными и выходными данными. Основное свойство такой системы . адаптивность (adaptability) . проявляется в способности нейросетевой вычислительной системы настраиваться в соответствии с данными. Синонимом этого понятия является способность к обучению.
Расширенная оптимизация подзапросов в Oracle
тут
В построении АНС используется нечеткая логика (fuzzy logic), которая также часто называется многозначной или «неясной» логикой. В соответствии с постулатами этой логики, все имеет градации, включая истину и факт принадлежности некоторому множеству. Она позволяет делать умозаключения с использованием нечетких множеств или множеств нечетких правил. Нечеткое правило (fuzzy rule) в простейшем случае выглядит как условное высказывание вида «если X есть A , то Y есть B », где A и B . нечеткие множества, а X и Y . определенные входные и выходные множества (например, в рассматриваемых выше случаях . входные наборы данных и ячейки плоскости выходных параметров соответственно).
На математическом языке правило представляется связью (relation) между нечеткими множествами. Каждое правило определяет «нечеткое» пятно (произведение A B ) в «пространстве состояний» системы. Чем обширнее нечеткие множества A и B , тем обширнее и более неопределенное нечеткое «пятно». Нечеткие правила нечетких систем являются блоками для построения знаний в алгоритме АНС. Выражаясь математическим языком, можно сказать, что каждое нечеткое правило действует как ассоциативная память, которая связывает нечеткий отклик B с нечетким стимулом A .
В структуре АНС используется так называемая автоассоциативная память (autoassociative memory), которая сконструированная таким образом, чтобы, кроме прочего, преобразовывать входные примеры в самих себя. Если входной пример содержит шум, разрушен и неполон, такая память способна восстановить оригинал или изученный пример.
В терминах нечеткой логики АНС является частным случаем нечеткой системы (fuzzy system), объединяющей множество нечетких правил, преобразующих входные данные в выходные. В наиболее простых системах такого вида исследователь сам устанавливает эти правила словами или символами. В модели АНС нейросетевая система самостоятельно обучается правилам по входным наблюдениям. На каждый пример входных данных в некоторой степени откликаются все правила в массивной ассоциативнойпамяти. Чем ближе сходство входного примера с частью «если» нечеткого правила, тем сильнее получается отклик в части «то». Далее в нечеткой системе все эти отклики или множества «то» складываются, и вычисляется их среднее или центроидное значение. Этот центроид является выходным результатом нечеткой системы. Каждое отображение входа на выход определяет одно нечетко-логическое заключение (fuzzy logical inferences). Теорема о нечеткой аппроксимации (fuzzy approximation theorem, FAT) утверждает, что нечеткая система может моделировать любую непрерывную систему. Каждое правило нечеткой системы действует как нечеткое «пятно», которое система ставит таким образом, чтобы имитировать отклик непрерывной системы на все возможные стимулы.
Обучение (learning) адаптивной сети в простейшей форме означает самонастройку на уровне процессорных элементов. Взвешенные связи между процессорными элементами или веса подстраиваются таким образом, чтобы получить конкретные результаты, исключая необходимость написания специального алгоритма для каждой задачи. В алгоритме АНС используется и другая трактовка термина обучение (training), которая означает предъявление нейросетевой вычислительной системе множества примеров-стимулов с целью достижения конкретной цели, определяемой исследователем. В исследовательских целях допускается также изменение правил или поведения системы с определенной целью.
Под термином «процессорный элемент» (processing element) здесь понимается вычислительная абстракция нейрона, т.е. нейроноподобная ячейка, которая совместно со многими другими процессорными элементами образует нейронную вычислительную сеть. Все вычислительные операции в АНС выполняются большим числом сравнительно простых адаптивных процессорных элементов.
Часть процессорного элемента, через которую проходит сумма входных сигналов для получения суммарного отклика, называется функцией передачи (transfer function).
Обычно это нелинейная функция. Другой компонент процессорного элемента, в котором складываются получаемые элементом сигналы, называется функцией суммирования (summation function). Суммарный сигнал в нейроне сравнивается с порогом (threshold), который представляет собой константу, которая используется в качестве уровня сравнения. Если значение суммы превышает порог, выполняется некоторое действие (например, нейрон возбуждается). В том случае, когда значение суммы ниже порога, никаких действий не происходит.
Каналы, по которым информация в нейросетевой вычислительной системе подается процессорным элементам, называются взвешенными связями (weighted connections) или взаимными связями (interconnects). Совокупность взвешенных связей образует ассоциативную память сети.
Основная архитектурная компонента нейронной сети, состоящая из множества процессорных элементов с одинаковыми функциональными возможностями и занимающая в сети положение, соответствующее определенной стадии обработки, обозначается термином «слой» (layer). Большинство нейросетевых методов являются многослойными нелинейно-регрессионными методами, в которых определенное число входных данных (входов) соотносится с одним или большим числом выходов. АНС имеет двухслойную архитектуру: входной слой с размерность, равной размерности входных данных, и выходной . двумерный слой, образующий плоскость выходных параметров. Существуют более сложные многослойные адаптивные сети (например, перцептрон), в которых между входными и выходными слоями располагаются так называемые скрытые слои. Критические скрытые слои, которые содержат меньше нейронов, чем входной и выходной слои в отдельности, вынуждены пропускать через каждый из своих нейронов тем больше информации, чем меньше размер такого слоя. За счет этого достигается большее сжатие информации, чем в АНС. Однако определение размерности скрытых слоев связано с большими сложностями, поэтому в рамках данной монографии эти виды сетей рассматриваться не будут.
В алгоритме АНС используется так называемое обучение без учителя (unsupervised learning), при котором для получения правильного отклика на заданный входной стимул учитель не используется. Часто этот термин является синонимом кластеризации. Система должна организоваться сама только на основе полученных ею входных стимулов. Самоорганизация (self-organization) представляет собой адаптивное изменение структуры нейронной сети или соответствующих ей взвешенных связей в результате отклика на обучающие стимулы. В алгоритмах, использующих обучение с учителем (supervised learning) «учитель» используется, для того чтобы показать системе желаемые отклики на входные стимулы, обычно в виде желаемых выходных сигналов.
Модель АНС использует так называемое «соревновательное обучение» (competitive learning), представляющее собой набор правилобучения, при котором процессорные элементы соревнуются между собой по отклику на заданный входной стимул. Нейрон-победитель и окружающие его элементы затем адаптируются таким образом, чтобы больше походить на входной вектор. Различные элементы адаптируются к различным входным стимулам. При этом в большинстве случаев, АНС можно отнести к группе сетей с прямыми связями (feed forward network), в которых информация передается только в одном направлении (от входа к выходу). В подобных сетях отсутствуют петли обратных связей от обрабатывающих к предыдущим элементам. Обратное распространение (back propagation), под которым понимается передача информации от выхода к входу сети, как правило, используется лишь в многослойных нейронных сетях. Однако в ряде случаев обратное распространение применимо и в сетях типа АНС. В частности, при распознавании образов или классификации с учителем распространение по обратной связи используется для передачи информации об ошибке. Вместо обратного распространения при распознавании образов может использоваться также дельтаправило обучения (delta rule learning). Этот алгоритм представляет собой разновидность обучения, при которой веса нейронов изменяются таким образом, чтобы уменьшить различие между наблюдаемым и желаемым выходом обрабатываемого элемента. Синонимом этого понятия является метод обучения Роббинса-Монро (RobbinsMonro).
Расширив понятийный аппарат, вернемся к описанию нейросетевой модели АНС.
Все векторы наблюдений r (t) , для которых модельный вектор появляется ближайшим, также выбирают П m в качестве победителя, и могут рассматриваться как «отображаемые» на него. Таким образом, каждый модельный вектор аппроксимирует в пространстве наблюдений целую область входных наблюдений. Сеть, образованная векторами П m , сначала принимает форму, которая наилучшим образом соответствует примерам данных, а затем уравнения (1) и (2) задают нелинейное отображение пространства векторов r (t) на эту сеть. При этом используются нелинейные функции передачи и конкуренция между нейронами сети.
Рассмотрим теперь регулярную двумерную решетку плоскости выходных параметров, состоящую из вычислительных элементов, именуемых нейронами. Для улучшения визуального восприятия удобнее представить данную решетку гексагональной. С каждым нейроном, таким образом, связывается модельный вектор k m , т.е. координаты узла в пространстве сигналов представляются теперь в виде соответствующего нейрону множества вещественных чисел. В обычных нейросетевых моделях модельный вектор соответствовал бы синаптическим весам, которые будут рассматриваться ниже, однако в АНС конкретизировать природу k m нет необходимости.
Представим, что последовательность примеров наблюдений r (t) каким-то образом передается каждому нейрону, по одному примеру поочередно. Вычислительный алгоритм сети (в простейшем случае это запрограммированное последовательное сравнение r (t) с k m по всем элементам входного множества) сначала будет выбирать нейрон-победитель, чей вектор k m наилучшим образом соответствует r (t) . Этот нейрон будет иметь индекс k=П .
Если задать положение нейрона k в этой сети с помощью двумерного вектора локализации k l , то функция соседства может быть приведена к виду:
В общем случае для этого можно воспользоваться и более простой формой функции соседства.
Как было отмечено выше, что алгоритм АНС определяет, каким образом m (t) k подстраиваются под значения r (t) . Предположим, что имеется достаточно примеров r (t) , а если это не так, то следует выполнить несколько итераций с имеющимися примерами повторно, с тем чтобы число «этапов обучения» оказалось достаточным для обеспечения сходимости m (t) k к приемлемым стационарным значениям * k m . Таким образом, любой вектор r (t) выбирает один нейрон, а именно тот, модельный вектор которого имеет наибольшее сходство с r (t) .
Нейронная сеть позволяет получить изображение всего пространства наблюдений, т.е. различные нейроны оказываются чувствительными к различным областям плоскости выходных параметров. Еще раз конкретизируем: процесс создания АНС требует двух слоев нейронов:
первый . входной слой, содержащий нейроны для каждого элемента входного вектора, второй . выходной слой, или решетка нейронов, связанных со всеми нейронами входного слоя. Число нейронов в выходном слое определяется исследователем на основании изначальной формы или размера плоскости выходных параметров, которую он хочет получить. В отличие от других нейронных сетей здесь нет ни одного скрытого слоя или скрытых нейронов.
Когда каждый новый образ входных данных подается на вход нейронной сети, нейроны выходного слоя соревнуются друг с другом за право быть победителем.
Победителем становится тот выходной нейрон, веса связей которого оказываются ближайшими к входному образу в смысле евклидова расстояния. Итак, когда образ предъявлен на вход нейронной сети, каждый нейрон стремится достичь наибольшего соответствия с входным образом. Выходной нейрон, ближайший к входному образу, признается победителем. Веса связей нейронапобедителя затем корректируются, т.е. сдвигаются в направлении входного образа с помощью множителя, определяемого темпом обучения. В этом состоит сущность соревновательногоалгоритма нейронных сетей, в том числе и АНС.
Когда АНС осуществляет топологическое отображение входного образа на плоскость выходных параметров, происходит регулирование не только веса нейронапобедителя, но также весов смежных выходных нейронов, ближайших соседей победителя. Таким образом, подвижка весов происходит не только у нейронапобедителя: целая окрестность выходных нейронов становится сдвинутой ближе к входному образу. Когда процесс начинается с рандомизированных (случайных) значений весов, выходные нейроны медленно выравниваются, поскольку при предъявлении входного образа на него реагирует не только отдельный нейрон, но также и очень широкая окрестность этого нейрона. По мере того как обучение продолжается, размер этой окрестности вокруг нейрона-победителя постепенно уменьшается. Сначала одновременно корректируются веса многих нейронов в окрестности победителя, но по мере обучения на входные сигналы реагирует все меньшее и меньшее число нейронов. В конце обучения корректируются только веса нейрона-победителя непосредственно примыкающих к нему нейронов. Аналогично темп обучения (интенсивность коррекции) уменьшается по мере обучения, а в некоторых алгоритмах АНС темп обучения снижается по мере уменьшения расстояния от нейрона-победителя.
Результатом вычислений являются веса связей между входными векторами и выходными нейронами, каждому из которых соответствует типичный входной образ для некоторого подмножества входных данных, которое попадает в отдельный кластер. Кластеры образуются из нейронов плоскости выходных параметров со сходными реакциями на входные сигналы. Процесс сжатия данных большой размерности до некоторого набора кластеров называется сегментацией. Исходное пространство большой размерности сжимается в двумерную плоскость, состоящую из нейронов. Индекс выходного нейронапобедителя, по существу, разделяет также и входные образы на множество категорий или кластеров.
После обучения каждый нейрон плоскостивыходных параметров соответствует группе входных объектов, обладающих сходными признаками. Соответствие между объектами и нейронами, в большей или меньшей степени, сохраняет топологию пространства входных данных: объекты со сходными признаками соответствуют либо одному и тому же нейрону, либо соседствующим нейронам выходного слоя. Окончательный результат самоорганизации АНС представляет собой плоскость выходных параметров, сохраняющую топологию пространства входных данных.
Особый интерес представляет свойство аппроксимации плотности, которым обладает АНС. Оно показывает, что алгоритм АНС, завершающийся полным отсутствием соседей у нейрона-победителя в конце обучения, сходится, что соответствует сходимости классического метода многопараметрического квантования или, иными словами, соревновательного обучения. После квантования нейроны представляют собой дискретный каркас для реконструкции начальной плотности при условии, что каждый нейрон взвешивается вероятностью, оцениваемой по частоте его области Вороного. При условии адекватного взвешивания нейронов полученный результат показывает, что начальные данные могут быть восстановлены, причем сам результат является точным, если число нейронов стремится к бесконечности.
Для того чтобы создать хорошую модель АНС, необходимо уделить внимание следующим наиболее важным аспектам: инициализации модельных векторов, выбору функции соседства и скорости обучения, выбору размерности и формы плоскости выходных параметров, а также масштабированию входных переменных. Помимо этого необходимо учесть процедуры автоматического цветового кодирования АНС. Рассмотрим подробнее эти и другие аспекты алгоритма АНС, на которые выше делались многочисленные ссылки.
При инициализации алгоритма АНС следует иметь в виду, что процесс самоорганизации будет протекать на несколько порядков быстрее, а окончательные результаты получатся гораздо более устойчивыми, если перед запуском алгоритма модельные векторы будут упорядочены, хотя бы очень приблизительно. Например, можно выбрать две главные компоненты данных, после чего можно построить регулярную решетку из точек, расположенных вдоль гиперплоскости, задаваемой исходными данными.
Если взять в качестве значений модельных векторов в такой решетке главные компоненты, это позволит сузить функцию соседства и уменьшить значение коэффициента скорости обучения.
Многочисленные расчеты показали, что алгоритм АНС допускает различные варианты выбора функции соседства и фактора скорости обучения. Тем не менее, всегда необходимо учитывать следующее:
функция соседства должна быть шире в начале процесса обучения, и ее ширина должна уменьшаться со временем таким образом, чтобы к концу этого процесса осуществлялась подгонка только непосредственных соседей нейрона-победителя; процесс самоорганизации должен включать достаточно большое число шагов обучения.
Поскольку использовать наиболее приемлемую для большинства случаев гауссову функцию соседства иногда может оказаться затруднительно, в некоторых случаях можно прибегнуть и к более простой функции, которая также достаточно хорошо работает, особенно если модельные вектора инициализированы таким образом, как описано выше.
Более простые уравнения обучения АНС имеют следующий вид:
Если начать вычисления с предварительно упорядоченных начальных значений k m , то выбор точных значений (t) и (t) не является критическим. Можно, например, уменьшать (t) линейно (дискретными шагами) в промежутке от 5 до 1, уменьшая одновременно скорость обучения (t) от 0,05 до 0.
Чтобы добиться лучшей сходимости, исходя из теоретических соображений, можно выбрать закон вида:
где: G . параметр, значение которого должно превышать число нейронов в 100 или более раз.
Если для инициализации модельных векторов используются случайные числа, то приведенные выше рекомендации относительно выбора значений (t) и (t) непригодны. В этом случае начальный радиус (t) должен составлять половину размера сети, и скорость обучения в начале процесса должна быть близкой к единице.
Для получения хорошего визуального представления данных рекомендуется гексагональное расположение нейронов. Множество нейронов должно иметь продолговатую форму, поскольку очертания распределения данных на практике обычно продолговатые, а набор модельных векторов должен им соответствовать. Квадратные массивы нейронов не ориентируются по отношению к таким распределениям нужным образом.
Размерность плоскости выходных параметров АНС в общем случае определяется исследователем произвольно. Чаще всего она прямоугольная, а не квадратная.
При этом следует иметь в виду следующее:
чем больше размерность плоскости выходных параметров, тем выше вероятность того, что каждый отдельный вектор входных данных будет отображаться в отдельном нейроне. Большие плоскости позволяют организовать новые данные в легко читаемые таблицы, но обобщающая способность таких изображений недостаточна;
плоскости меньшей размерности обеспечивают большую степень сжатия данных. Однако слишком малое число нейронов приводит к уменьшению разрешения, поэтому соответствующие плоскости способны обеспечить лишь очень грубую дифференциацию, не позволяя увидеть разницу между предприятиями, действующими в определенных секторах экономики или в отдельных регионах.
Размерность плоскости выходных параметров определяет степень обобщения входных данных. Помимо большого объема вычислений обучение АНС с использованием большого количества нейронов может привести к отображению на плоскости множества лишних подробностей. С другой стороны, используя слишком малое количество нейронов можно упустить существенные различия в изучаемой совокупности. Поэтому определение оптимального размера (числа нейронов) АНС сводится к выбору «гранулярности» или степени обобщенности данных, оптимальной с точки зрения поставленной цели.
Как правило, даже при относительно равномерном выходном распределении, когда среднее число предприятий, попавших в каждую ячейку, составляет от 4 до 6, вследствие случайных флуктуаций входных данных, на плоскости выходных параметров может образоваться несколько пустых ячеек, в которые не попало ни одно предприятие. Увеличение количества выходных нейронов в этом случае представляется нежелательным, так как оно ведет к возрастанию числа нейронов, на которые ничего не отображается.
Универсальных рекомендаций по выбору количества нейронов в сети не существует, так как оптимальная размерность плоскости выходных параметров зависит как от сферы применения АНС, так и от объема имеющихся данных. Например, если имеется относительно однородное множество примеров, то нейронов целесообразно выбрать в несколько раз меньше, чем записей. В ином случае: если векторы данных представляют собой случайные переменные и распадаются на более или менее размытые кластеры, а с помощью АНС необходимо выявить кластерную структуру, число нейронов лучше выбрать кратным числу кластеров. Если с помощью АНС изучается кластеризация, а количество кластеров заранее неизвестно, число нейронов не должно быть больше, чем 10% от общего числа записей. Иногда объем имеющихся данных ограничен вследствие высокой стоимости или трудности их получения. В таком случае статистическая точность их представления может оказаться проблематичной, поскольку нельзя использовать несколько узлов для представления одного образа. Возможны также иные ситуации, поэтому осознать характер проблемы и специфику имеющихся данных важно еще до того как будет определяться размерность плоскости выходных параметров. Как правило, выбор «наилучшей» размерности плоскости выходных параметров производится в каждом случае на основе множественного моделирования (расчета различных вариантов) с использованием различных методов инициализации АНС, функции соседства нейронов, топологии выходной плоскости и обучающих процедур.
Для обработки очень больших наборов данных используется иерархическое решение. Например, сначала весь массив входных данных отображается на небольшую по размерности плоскость выходных параметров. При этом каждый нейрон может содержать тысячи объектов.
Затем из общего массива данных делаются выборки, соответствующие каждому из таких нейронов, и для них с помощью АНС строятся новые плоскости выходных изображении, каждый нейрон которых содержит в среднем уже десятки объектов. Затем проводится построение с более высоким разрешением и т.д. Как правило, используется от 2 до 5 уровней иерархии. Иногда более детальные изображения строятся не для каждого нейрона плоскости с низким разрешением, а для совокупностей нейронов, образующих кластеры. Это вносит осмысленность в иерархическую кластеризацию. Таким образом, любая типичная область более высокого уровня может быть (по аналогии с картографированием) увеличена для уточнения дополнительных подробностей.
В ходе анализа финансово-экономических показателей предприятий необходимо использовать переменные, характеризующие весь спектр финансовых данных.
Такие показатели должны давать представление об экономических результатах промышленных компаний в отношении к используемым ресурсам (валовая прибыль, чистая прибыль, платежеспособность, производительность и рентабельность), их относительным затратам (промежуточное потребление, расходы на персонал и финансовые обязательства), а также их финансовой структуре (размер и структура капитала компании, сумма и структура задолженности, резервные фонды) и структуре рисков. Целесообразно задействовать все имеющиеся в наличии переменные и варианты, не исключая предварительно каких-либо реализаций или паттернов на том основании, что они могут иметь атипические значения. Как правило, берется от 16 до 32 основных финансовых показателей из балансов и из отчетов о прибылях и убытках предприятий. Слишком малое число показателей не позволяет обосновать кластеризацию.
Необходимым предварительным условием является наличие однородной финансовой информации о разных компаниях. Необходимо контролировать сбор данных и выверку балансов и отчетов о прибылях и убытках компаний, действующих в различных секторах экономики, так как каждый сектор имеет свои особенности, отражающиеся в структуре данных. Кроме этого, если целью анализа является не кластеризация, а определение какихлибо обобщенных характеристик компаний, предприятия в одну выборку должны подбираться с учетом их специализации и размера. Компании, занимающиеся реализацией крупных долгосрочных проектов, должны составлять отдельную выборку на том основании, что их финансовая отчетность имеет тенденцию варьироваться на различных стадиях осуществления этих проектов. В отдельные группы должны попадать очень мелкие предприятия, деятельность которых не может рассматриваться как устойчивый бизнес, и предприятия, масштабы деятельности которых значительно превосходят средний уровень.
В частных случаях анализа состав показателей может определяться в соответствии с известными методиками. Например, при проведении анализа возможности банкротства, показателя могут совпадать с выбранными Альтманом в его работе по предсказанию банкротств (Altman, 1968):
Интересной разновидностью АНС является сеть с «гибридным обучением». В этом случае структура плоскости выходных параметров может определяться основными данными, содержащимися в финансовых отчетах, а дополнительные данные могут вводиться при помощи векторов весовых коэффициентов так, чтобы их можно было использовать впоследствии для визуального представления данных.
Часто более предпочтительным методом предварительной обработки входных данных АНС, чем выравнивание по дисперсии, является метод выравнивания по гистограмме. Этот метод позволяет преобразовать произвольное исходное распределение значений показателей в почти равномерное. Выравнивание по гистограмме выполняется для каждого показателя в отдельности следующим образом. Если имеется гистограмма, построенная на 100 интервалах N финансовых отчетов, из которых берется N значений показателя x , то N /100 наименьших значений x , заменяются на 1, следующие N /100 наименьших значений заменяются на 2 и т.д. Наконец, N /100 наибольших значений x заменяются на 100. Если в исходных данных присутствуют равные значения финансовых показателей, длина соответствующего интервала должна быть скорректирована таким образом, чтобы равные значения попадали в один и тот же интервал, приобретая, таким образом, равные значения и после выравнивания.
Еще одним способом предварительной обработки входных данных является нормализация отклонений значений компонент. Однако следует иметь в виду, что данный способ чувствителен к исключительно высоким значениям. В результате при обучении АНС предпочтение отдается незначительному числу случаев.
В ряде случаев (например, при сравнении эффективности работы различных предприятий) исследователя интересуют относительные, а не абсолютные показатели.
В таких обстоятельствах финансовые данные по каждому предприятию должны нормализоваться в соответствии с величиной валюты баланса предприятия.
При отсутствии предварительных соображений, обуславливающих осмысленный выбор способа нормирования, как и в случае подбора обучающих параметров АНС, целесообразно определить наилучший метод путем тестирования разных способов нормирования. Нормиро-вание входных данных является весьма существенной частью их предварительной обработки. Результат обучения АНС в значительной степени зависит от того, насколько правильно были определены соотношения между параметрами, иными словами, от масштабирования.
Изменяя факторы масштабирования, можно исследовать различные характеристики массива входных данных. В некоторых случаях, когда требуется выявить закономерности в структуре отдельных параметров или отдельных групп параметров, эксперименты с различными масштабами дают возможность повысить чувствительность АНС к выбранным параметрам. Часто различие в масштабе показателей тесно связано с выбором наиболее важных входных переменных. При этом АНС как бы разбивает пространство входных данных на области, в которых группируются сходные по выбранным признакам объекты. Топология плоскости выходных параметров упорядочивается согласно доминирующим компонентам, остальные же компоненты усредняются. АНС представляет собой удобный интерфейс для исследования данных, организованных в соответствии со значениями главных компонент. Масштабирование изменяет топологическую структуру плоскости. Компоненты, подвергшиеся масштабированию в наибольшей степени, представляют собой топологически компактные области, особенно в случае, когда речь идет об основных компонентах множества данных. Слабо масштабированные компоненты образуют подобласти внутри основных областей.
Формирование АНС с незначительно отличающимися для различных компонент константами масштабирования позволяет рассматривать входные данные об одних и тех же наблюдениях под разным углом зрения. Чем больше значения констант масштабирования, тем выше разрешение или число нейронов для того илииного параметра. Соответственно меньшие константы масштабирования дают более усредненные значения по нейронам, т.е. менее отчетливую картину соответствующих компонент.
В общем случае всегда необходимо соотносить процесс масштабирования и цели обработки данных. Изначальная идея АНС состоит в поиске наилучшего представления пространства входных данных. Поэтому, если значения некоторых компонент будут слишком завышены, то остальные компоненты станут менее различимыми, что может привести к утрате или искажению той или иной ценной информации.
Для того чтобы сделать визуальное представление данных при помощи АНС более интуитивно понятным, различные кластеры, т.е. различные типы данных могут быть обозначены различными цветами. Однако выделить четко очерченные кластеры оказывается зачастую практически невозможно, поскольку кластеры могут перекрываться, да и попросту отсутствовать. Поэтому данные следует окрашивать таким образом, чтобы оттенки цвета изменялись плавно в зависимости от изменения плотности данных. Относительно более однородные кластеры будут соответственно окрашены более равномерно, в то время как участки плоскости выходных параметров, не содержащие кластеров, будут отличаться более неравномерной окраской.
Процедура автоматического цветового кодирования для адаптивных сетей типа АНС состоит из трех последовательных этапов:
выбор цветовых центров . подходящих участков плоскости выходных параметров, на которых будут наблюдаться известные цвета;
выбор подходящих оттенков для цветовых центров;
окрашивания оставшейся части плоскости выходных параметров.
Для выбора цветовых центров можно использовать одномерную адаптивную нейронную сеть с линейной формой выходного изображения. Каждый узел одномерной (кольцеобразной) сети будет соответствовать одному цветовому центру, в результате чего по завершении обучения такой АНС центры цвета оказываются преимущественно в области кластеров. Технически кольцеобразную АНС можно обучать, используя обычный алгоритм самоорганизации, но со специально сформированными входными данными. Можно выбрать двумерные данные, в которых первая компонента соответствует горизонтальной оси АНС обычного двумерного типа, а вторая компонента соответствует ее вертикальной оси. Из светлых областей можно выбрать больше данных, а из более темных меньше. Данные должны подбираться таким образом, чтобы различные оттенки использовались для того, чтобы показать распределение плотности вероятности. Известно, что модельные векторы АНС отражают распределение данных, поэтому они окажутся преимущественно в области кластеров (на светлых участках).
Выбор подходящих оттенков для обозначения цветовых центров производится следующим образом. Если бы каждый цветовой центр был принудительно помещен в отдельную область, соответствующую кластеру, было бы разумно просто соотнести каждый из них с определенным цветом. Если представить себе круговой спектр, в котором каждому цвету соответствует определенный угол, то любой возможный цвет может быть сопоставлен с определенным углом. Тогда цвета выбранных принудительно цветовых центров можно определить таким образом, чтобы на диаграмме спектра между ними были одинаковые промежутки. Если это возможно, соседним центрам цвета следует соотнести цвета, близкие по положению в спектре.
Когда центры цвета помещаются на плоскость выходных изображений автоматически, несколько центров могут оказаться в одной и той же обширной области, соответствующей одному кластеру. Поэтому цвета, соответствующие этим центрам, нельзя выбирать «равноудаленными» друг от друга, поскольку в этом случае в области кластера будут наблюдаться резкие цветовые переходы.
Предположим, что цвета центров внутри каждого кластера в отдельности выбраны сравнительно близкими.
Тогда каждый кластер приобрел бы отличительный цветовой оттенок, который медленно изменялся бы по мере приближения к окружению этого кластера. В промежутках между кластерами наблюдались бы более резкие цветовые переходы. Подобный способ раскраски в точности соответствует тому, который получается путем использования цепочки одномерной АНС для размещения центров цвета. Кольцеобразную АНС можно рассматривать как круговой спектр, подстроенный под заданное представление. Узлам на кольцеобразной АНС можно приписать цвета, расстояние между которыми приблизительно обратно пропорционально «степени кластеризации» или плотности входных данных. Таким образом, цветовые центры, лежащие внутри одного и того же кластера, приобретут близкую по спектру окраску.
Для пояснения технических деталей данной процедуры стоит заметить, что каждый цветовой центр прикреплен к единственному узлу двумерной плоскости выходных параметров, представляющей собой основу для визуального представления данных. Тенденцию к кластеризации вокруг каждого центра можно оценить по расстояниям между соседними модельными векторами на этой двумерной плоскости, поскольку плотность распределения модельных векторов отражает плотность распределения данных. В частности, расстояние между цветами может быть определено по расстояниям между модельными векторами, которые соответствуют этим центрам на двумерной плоскости выходных параметров АНС. Расстояние между центрами вычисляется вдоль пути, который начинается в одном из цветовых центров, переходит к модельному вектору в соседнем узле на каждом из шагов алгоритма и, наконец, завершается в другом цветовом центре. Из всех возможных путей подобного рода необходимо выбрать самый короткий. Хотя эта процедура может показаться несколько усложненной, она необходима для того, чтобы остальная часть плоскости выходных изображений была окрашена должным образом.
Большой кластер может быть окрашен неоднородно, что на самом деле вполне объяснимо. Если бы вся плоскость выходных изображений в частном случае содержала лишь один большой кластер, показать структуру, существующую внутри этого кластера, было бы более целесообразно, чем окрасить всю плоскость в один и тот же цвет.
Окрашивание оставшейся части плоскости выходных изображений производится после того, как центры кластеров выбраны и окрашены. Каждому участку плоскости приписывается цвет, отражающий сходство данного участка с цветовыми центрами. В результате окраска каждого участка вне кластеров будет представлять собой смешение цветов цветовых центров. Величина каждого из коэффициентов смешивания цветов будет тем больше, чем более выражено будет сходство данного участка с соответствующим цветовым центром.
Точнее, каждый коэффициент смешивания будет функцией расстояния между модельным вектором, соответствующим раскрашиваемому участку плоскости выходных параметров, и одним из цветовых центров. Это расстояние должно вновь вычисляться по кратчайшему пути, каждый шаг которого представляет собой переход от одного модельного вектора к другому, соседнему. Зависимость коэффициента смешивания от этого расстояния лучше всего сделать гауссовой. Можно также использовать обратно пропорциональную зависимость, но гауссова функция позволяет избежать значительного «перетекания» краски от центров цвета к удаленным участкам плоскости выходных параметров.
Каждый коэффициент смешивания умножается на весовой фактор, обратно пропорциональный плотности цветовых центров, расположенных в окрестности рассматриваемого. Эта плотность оценивается по расстоянию между соседними цветовыми центрами. Если данной процедурой не воспользоваться, то цвет области большого кластера, содержащей несколько цветовых центров, будет влиять на цвет окружения сильнее, чем цвета меньших по размеру кластеров.
Для упрощения интерпретации полученной цветовой картины следует отметить, что, как правило, количество цветовых градаций в окрестности кластеров является наибольшим. Количество градаций зависит от плотности цветовых центров, которые расположатся вокруг кластеров, чтобы обеспечить яркость и четкость их окраски. В связи с этим участки плоскости выходных параметров, расположенные вдали от кластеров, вероятно, будут иметь окраску, соответствующую цвету ближайшего кластера. При этом по мере удаления от кластера количество цветовых градаций на единицу площади плоскости выходных изображений будет уменьшаться.
Рассмотрим некоторые специфические задачи, решаемые при помощи АНС, а также анализ релевантностмодели. Все они связаны либо с усеченным способом использования основного алгоритма АНС, либо с использованием дополнительных математических методов, построенных на иных алгоритмах.
Специальные варианты плоскостей выходных параметров АНС, на которых с помощью масштабирования усилено влияние отдельных компонент, называются компонентными плоскостями (component plane representations).
Они позволяют проводить более глубокий анализ каждой из входных переменных.
С помощью визуального изучения топологии распределения признаков по поверхности компонентных плоскостей можно наглядно представить взаимное влияние входных данных друг на друга. Представление в виде компонентных плоскостей является своего рода урезанной версией АНС. Каждая компонентная плоскость отражает относительное распределение одной из компонент входного вектора данных. В этом представлении более светлые области на плоскости выходных параметров соответствуют сравнительно малым величинам выбранного параметра, в то время как более темные . Сравнительно большим. При сравнении компонентных плоскостей можно визуально определить взаимную корреляцию двух компонент: чем в большей степени рисунок компонентной плоскости одного показателя сходен с рисунком плоскости другого, тем сильнее корреляция между этими показателями. Компонентные плоскости могут быть также использованы для обнаружения корреляции между входными данными, значения которой различны в различных областях пространства входных данных. Если графическое представление топологии распределения признаков в одних и тех же областях нескольких плоскостей (две и более компонентные плоскости) похоже по расположению одинаково окрашенных областей, это означает, что соответствующие входные данные в высокой степени коррелируют между собой. Представление в виде компонентных плоскостей дает четкое визуальное представление о корреляции между компонентами входного вектора. Выбирая одни и те же нейроны в каждой из компонентных плоскостей (в одном и том же месте), можно собрать вместе относительные значения вектора нейросети.
Часто для изучения компонент используются также дополнительные математические инструменты, например, ортогональной матрицы и проекции Сэммона.
Они дают грубое визуальное представление о расстояниях между отдельными компонентами входных данных попарно. Это особенно полезно для предварительного анализа, так как дает возможность получить приблизительное визуальное представление распределения классов и степени их перекрытия.
Ортогональная матрица представляет собой двумерную диаграмму, на которой геометрические отношения данных в пределах выборки представляются цветом разной насыщенности: чем больше расстояние между векторами, тем интенсивнее окрашивается соответствующий элемент на ортогональной матрице. Представление с помощью ортогональной матрицы позволяет судить об относительных расстояниях между элементами плоскости выходных параметров: векторы весовых коэффициентов элементов плоскости отстоят друг от друга тем дальше, чем интенсивнее окраска соответствующих элементов. Таким образом, отдельные кластеры данных будут выглядеть в виде светлых пятен, разделенных более темными областями.
Отображение Сэммона визуализирует ту же информацию, что ортогональная матрица, но только в форме образованной из прямых отрезков сети, построенной в трехмерном пространстве. Дополнительное третье измерение служит для визуального отображения расстояний между векторами.
После завершения процесса самоорганизации сети целесообразно расставить индикативные метки для нейронов плоскости выходных параметров. При этом за основу принимается то, что узлы «интеллектуальной» сети тяготеют в пространстве данных к областям концентрации примеров данных. Иными словами, плоскость выходных параметров или «нейросетевой дисплей», отображает координаты узлов (т.е. модельных векторов), соответствующих различным нейронам. Это дает право пометить все или некоторые нейроны, для того чтобы стало непосредственно ясно, что они означают.
Обычно в статистических таблицах каждая запись, соответствующая, например, одной компании, описывается единственным множеством данных. Названия этих записей можно, таким образом, использовать в качестве меток.
Предположим, что модельные векторы сходятся к приемлемым * k m . Если r (t) . вектор входных данных, имеющих символьное обозначение s(t) , и если выполняется условие:
то на нейроне-победителе можно поставить метку s(t) .
С другой стороны, если данные в записи стохастические, как, например, данные, описывающие исторические состояния производственного процесса, то различные измерения данных в одной и той же записи дадут в целом разные векторы данных r (t) . Как правило, существует возможность давать названия некоторым, четко определенным состояниям процесса (например, состояние банкротства).
При нанесении названий на плоскость выходных параметров в качестве меток необходимо исходить из принципа мажоритарного голосования, поскольку, если ввести все входные векторы r (t) , они пометят различные нейроны, и каждый нейрон будет, таким образом, иметь множество меток. Поэтому в качестве наиболее характерной может быть выбрана метка, чаще других относимая к соответствующему нейрону.
Для выбора маркеров, идентифицирующих нейроны на плоскости выходных параметров, также могут быть использованы традиционные картографические приемы.
Графические переменные могут быть использованы для каждого из компонент входных данных. Местоположение ( x, y ), цвет (оттенок, насыщенность, интенсивность), размер, форма, структура и ориентация могут быть использованы для соответствующей комбинации компонент. Для больших значений тех или иных компонент могут использоваться фигуры большего размера. Местоположение, размер, интенсивность, насыщенность, строение и ориентация могут представлять структуру и пропорции входных данных, оттенками целесообразно представить взаимосвязи в структуре входной информации, а кроме этого, и тип связей. Как наиболее наглядный элемент, форма должна использоваться для представления типа входных параметров.
В целях более ясного разграничения областей на плоскости выходных параметров и интерпретации результатов целесообразно исследовать синаптические веса нейронов. В простейшем случае синаптический вес выбранного нейрона по определенному показателю находится по результатам одномерного статистического анализа значений этого показателя в подмножестве входных данных, вызвавших активизацию данного нейрона. В более общем случае синаптические веса находятся по результатам кластерного анализа.
В соответствии с тремя наиболее распространенными критериями на плоскости выходных параметров можно получить три распределения: одно . максимальных синаптических весов, одно . минимальных и одно .
наибольших по абсолютному значению. На каждый нейрон плоскости выходных параметров наносится номер соответствующего синаптического веса. Технически карта синаптических весов получается путем присвоения каждому нейрону номера того показателя из набора входных данных, который для данного нейрона в максимальной степени соответствует избранному критерию относительно других показателей. На нейронах плоскости выходных параметров, наибольших по абсолютному значению синаптических весов, как правило, указывается также направление отклонения скалярного значения (плюс для максимальных значений и минус для минимальных).
Это дает возможность учесть как положительные, так и отрицательные признаки, влияющие на нейроны в наибольшей степени, поскольку принять во внимание слабые стороны каждой группы компаний наряду с ее сильными сторонами представляется крайне полезным. В результате получается матрица номеров синаптических весов, спроецированная на плоскость выходных параметров.
При этом каждой группе компаний (кластеру на плоскости выходных параметров) будут соответствовать некоторые группы синаптических весов. Например, одна группа может характеризоваться в целом высокой общей задолженность, другая . высокой балансовой прибылью, третья . низким оборотным капиталомв совокупности с повышенными расходами на персонал и т.д. Это позволит выявить наиболее характерные признаки отдельных групп компаний, что, в свою очередь, даст возможность описать их экономическую стратегию.
При анализе возможности банкротства исследования синаптических весов помогают определить, какие переменные доминируют в той или иной области карты банкротств. На итоговой карте для каждого нейрона синаптические веса покажут, какая переменная особенно важна при распознавании, т.е., иными словами, какой положительный или отрицательный признак в наибольшей степени отражает данный нейрон. Путем изучения синаптических весов на плоскости выходных параметров можно будет выделить не только зону банкротств и платежеспособности, но и области высокой прибыли, низкой ликвидности и т.д. Это позволит понять, как происходила группировка предприятий, и какие переменные являются наиболее важными для диагностики возможности банкротства.
Выделив с помощью синаптических весов как наибольшие, так и наименьшие значения ключевых показателей массива входных данных и сведя их в одну плоскость выходных параметров, можно получить так называемую таблицу для принятия решений об инвестициях в ценные бумаги эмитентов, или маркированную карту инвестиций, напоминающую карту платежеспособности. На такой таблице можно увидеть, что различные группы эмитентов кластеризуются в различных ее частях или зонах. Иногда резких различий между этими зонами нет, однако, таблица принятия решений позволяет упростить инвестору выбор ценных бумаг эмитентов с определенными характеристиками.
В нейрокомпьютинге используется также другое толкование понятия синаптических весов, тесно связанное с координатами модельных векторов. В этом смысле синаптические веса играют ту же роль, что и коммуникационные связи, образующие ассоциативную память сети.
Порядок, согласно которому происходит обновление синаптических весов при численной реализации функций обучения, определяется так называемой стратегией управления (control strategy).
Для исследования динамики развития предприятий на продолжительных интервалах времени может быть использован метод скользящих временных окон, перемещаемых вдоль исторического ряда наблюдений (аналогично принципу скользящих средних на фондовом рынке . moving average). Этот метод наиболее эффективен при наличии тренда в последовательности наблюдений.
Скользящее среднее сглаживает случайные колебания показателей предприятия, однако работает с задержкой по времени. Можно использовать любое число скользящих средних с различными временными интервалами усреднения. Кроме этого целесообразно поэкспериментировать с разновидностями этого алгоритма: простой, взвешенной и экспоненциальной скользящей средней. При расчете простого среднего (simple average) все данные берутся с одинаковым весом. Для получения взвешенного среднего (weighted average) больший вес приписывается последним данным в выбранном временном промежутке усреднения.
Экспоненциальная разновидность характерна соответствующей процедурой взвешивания.
Исследование данных финансовой отчетности за несколько последовательных лет возможно посредством простой конкатенации векторов данных в один более длинный вектор. Однако данный подход имеет большой недостаток: АНС, обученная при помощи подобных векторов данных, дает картину, интерпретация которой затруднительна. В частности, у плоскости выходных данных, построенной по данным за несколько лет, отсутствует естественная система координат, причем даже в том случае, если таковая может быть выявлена у плоскости, построенной по данным за один период отчетности. Эту проблему можно разрешить путем использования АНС с многоуровневой иерархией.
АНС первого уровня обучается на данных финансовой отчетности за один год, так что положение каждой компании на плоскости выходных параметров первого уровня может быть определено по данным ее финансовой отчетности только за этот год. Плоскость второго уровня обучается на данных о положении компании в плоскости первого уровня с помощью информации из финансовых отчетов второго года и т.д. Таким образом, например, каждый нейрон плоскости выходных параметров второго уровня соответствует траектории на плоскости первого уровня, отражая одну и ту же динамику изменения финансового состояния компании из года в год. При построении новых плоскостей выходных параметров как бы наследуются свойства предшественников. Плоскости такого вида называют картами траекторий.
Практика показывает, что на плоскости выходных параметров, состоящей из 400 нейронов, среднее смещение положения предприятия для двух последовательных годов составляет около 7 ячеек при максимуме в 20.
Столь бурная динамика предостерегает от использования одного и того же изображения для визуального представления данных за несколько лет.
Существует интересный способ анализа плоскостей выходных параметров высокого уровня. На выбранные нейроны наносятся траектории их движения по плоскостям более низкого уровня. При этом рассматриваются несколько плоскостей, построенных по информации следующих друг за другом годов. При наличии достаточного места для изображения всех элементов изображения изменение траекторий, как правило, происходит плавно.
Интересная особенность при этом проявляется на картах платежеспособности, отражающих различия в уровне платежеспособности и рентабельности. Платежеспособность на правильно сориентированной карте возрастает сверху вниз, а рентабельность . слева направо. При этом зона наибольшей концентрации данных о банкротстве занимает различное положение в зависимости от времени его наступления. Сначала возрастание риска банкротства связано, главным образом, с низкой стабильностью, а затем . также и с понижением рентабельности. Траектории состояния компаний обычно стремятся вращаться по часовой стрелке. Снижение рентабельности (смещение влево) приводит обычно к уменьшению платежеспособности (смещение вверх). Исключения из этого правила указывают на некоторые отклонения от нормы, такие как изменения в структуре капитала компании.
Карта платежеспособности получается путем самоорганизации данных. Можно прямо на карте показать образы (компании), которые в наибольшей степени повлияли на каждый из нейронов (не только местоположение каждой компании на карте). С точки зрения нейронных сетей, близкими друг к другу считаются те фирмы, которые имеют сходные паттерны показателей. Путем исследования синаптических весов можно обозначить на карте определенные области. Однако этого может оказаться недостаточно для того, чтобы определить границы между отдельными фирмами. Самоорганизующуюся карту платежеспособности полезно дополнить кластерным анализом. В результате на карте платежеспособности будут очерчены границы кластеров. Некоторые из групп будут находиться в зоне банкротства, а некоторые . в зоне платежеспособности. Часть пограничных групп могут включать разные компании, что призывает оперировать с ними осторожно.
В целях избежания путаницы, конкретизируем используемые здесь понятия из теории множеств. Паттерны . компактные группы, образованные в массиве входных данных параметрами со сходным поведением. На проекции Сэммона такие параметры образуют плоские участки.
Кластеры образуются в массиве входных данных из близких по характеристикам объектов (в данном случае .
компаний). На плоскости выходных параметров АНС кластеры определяются визуально как области с относительно однородной интенсивностью окраски. Понятие «образ» в данной монографии используется в двух контекстах. Чаще всего образ представляет собой предъявляемый на вход сети единичный вектор входных параметров (синонимом является единичная реализация последовательности входных данных или набор финансово экономических показателей по одному предприятию).
Иногда (в понимании теории распознавания образов) образом называется определенная путем введения ограничений категория входных объектов, используемая с целью придания осмысленности классификации или кластеризации. Распознавание образов (pattern recognition) предполагает в качестве образа вектор измеренных величин.
Для выявления концептуальных категорий в пространстве входных данных чрезвычайно полезным представляется изучение соответствующим образом упорядоченной АНС. Категории формируются на основе наблюдений за счет рассмотренных в начале данного раздела свойств самоорганизации АНС. Будучи близкими по содержанию в пространстве входных данных, они оказываются рядом и на плоскости выходных параметров. Таким образом, концептуальная иерархия может быть образована разделением групп нейронов в соответствии с произвольным уровнем абстракции. Нетипичные объекты также отчетливо различимы на плоскости выходных параметров. Их влияние сказываются лишь на положении соответствующего им и соседних нейронов.
Евклидово расстояние является наиболее часто используемой в соревновательных АНС мерой сходства.
Такое расстояние между компаниями со сходными структурами финансово-экономических показателей будет невелико, и, таким образом, эти компании будут располагаться на плоскости выходных параметров поблизости друг от друга в пределах одного кластера. Верно также и обратное: если две компании имеют существенно отличные структуры показателей, то и расстояние между ними будет большим, что не позволяет использовать для их совместного определения в пространстве простые концептуальные категории. Так же как различие между любыми двумя компаниями определяется как евклидово расстояние между векторами их показателей, так и различия между любыми двумя группами компаний может подсчитываться как евклидово расстояние между нормированными по каждой группе векторными переменными.
Приступая к определению границ концептуальных категорий, целесообразно первоначально создать проекции Сэммона по основным финансово-экономическим показателям предприятий. По проекции Сэммона часто можно определить, что распределение данных унимодально (имеет единственный максимум), иными словами, данные не кластеризуются. В ряде случаев, однако, это может являться следствием некорректной входной обработки данных, например, способом выравнивания по гистограмме. Это можно проверить, рассмотрев плотности безусловного распределения исходных данных. Выполненная по методу Сэммона проекция некоторой выборки предприятий может также сразу продемонстрировать, что очень мало предприятий располагается близко друг другу, а также многие из них находятся на большом расстоянии от главных кластеров. В этом случае имеет смысл поэкспериментировать с масштабированием и построить новые границы главных кластеров. Как правило, результаты успешного использования масштабирования хорошо видны на проекции Сэммона.
АНС может быть с высокой эффективностью использована для получения репрезентативной выборки из общей совокупности входных данных. Например, она позволяет выбрать по одному предприятию из каждой группы, которые вместе образуют репрезентативную выборку из всей совокупности компаний. АНС представляют собой хороший инструмент для сравнения различных классов (подклассов) предприятий по отдельным показателям.
Плоскости выходных параметров, созданные с целью разграничения предприятий на подклассы, могут быть с успехом использованы в качестве средства для сравнения отдельных компаний. Этот метод имеет преимущества по сравнению с определением средних значений для каждого подкласса, поскольку метод средних арифметических всегда дает отклонение в сторону группы с большим числом членов.
АНС следует рассматривать как ядро системы информационного обеспечения (поддержки) принятия решений для инвесторов, использующей также другие методы математического анализа. В совокупности они образуют компьютерную экспертную систему (expert system), содержащую дерево поиска и метод прослеживания в терминах искусственного интеллекта (artificial intelligence, AI). Исследователь передает такой системе свои знания в форме правил «если . то», а программист реализует их в программном обеспечении. Экспертная система определяет большое логическое дерево или несколько маленьких деревьев. В ее составе можно выделить две части: базу знаний и блок формирования выводов. База знаний представляет собой просто дерево или деревья, сформированные по правилам выбора из двух альтернатив. Блок формирования выводов на практике является некоторой схемой для рассуждений или «соединения» этих правил в единую цепь. В данном случае имеется нечеткая система, которая представляет собой разновидность экспертных систем, в которых знания хранятся в виде нечетких правил или нечетких связей.
Результаты обучения АНС можно проверить методом ошибки квантования, а также при помощи проекции Сэммона. Нейроны адаптивной сети представляют собой общую форму входных данных и квантуют входное пространство (т.е. отображают входное пространство на дискретное множество). Обучение нейронов АНС путем последовательного предъявления векторов входных данных позволяетполучить как бы эластичную пространственную сеть, которая по мере обучения нейросети растягивается, охватывая всю совокупность данных входного пространства. При этом ошибка квантования по множеству обучающих примеров является мерой сходства результатов АНС с тестами. Алгоритм такого тестирования состоит в предъявлении на вход АНС группы наборов показателей предприятий, не использовавшихся ранее в процессе обучения и содержащих пропущенные показатели. В результате расчетов определяются значения пропущенных показателей и сравниваются с теми значениями, которые были исключены из тестовых наборов. Критерием качества АНС является наличие явной корреляции между определенными с помощью сети и истинными значениями параметров. Показателем, характеризующим меру сходства, в этом случае является ошибка квантования рядов. Кроме этого, можно вычислить среднее отклонение.
Проекции Сэммона позволяют вычислить отклонения по каждому параметру, что также может свидетельствовать о качестве обученной АНС.
Качество построения АНС позволяет оценить также анализ чувствительности одних компонент к изменению других. С этой целью вычисляется вектор значений некоторого одного избранного параметра. Два других параметра выбираются для построения двух осей, подходящего по размеру окна, а также ряда строк и столбцов.
Значение избранного параметра высвечивается на выходной плоскости как цвет элемента изображения или как численное значение. При отображении одногоединственного объекта на плоскости нейроны принимают вид многоугольников. Соответствующие нейроны могут быть выделены на плоскости выходных параметров АНС более ярким цветом. В области компонент, подвергшихся существенному масштабированию, будет располагаться большое число нейронов, в то время как в области слабо масштабированных . один или несколько.
При вычислении ошибки квантования вывод значений ограничен только теми элементами изображения, для которых ошибка квантования меньше, чем некоторая пропорцияошибки квантования для множества обучающих примеров. Сильно масштабированные компоненты допускают лишь незначительное изменение значений, а для слабо масштабированных компонент диапазон допустимых отклонений весьма широк. В визуальном представлении на плоскости выходных изображений присутствуют только те области, в которых содержится достаточное количество похожих наблюдений. Особенно интересные нейроны создают на экране неоднородности. Во многих случаях при сравнении этих нейронов с соответствующими им примерами могут быть выявлены некоторые более важные компоненты. В реальной ситуации ни один параметр не имеет точного глобального значения. Значение возникает в каждой конкретной ситуации при комбинации значений компонент, уникальной для того или иного участника рынка. Результаты могут быть обобщены путем группировки аналогичных наблюдений.
Чтобы понять различие между соседними наблюдениями, следует учесть, что алгоритм АНС создает нейроны там, где наблюдения, располагающиеся близко друг к другу, являются существенными. Распределение значений того или иного параметра зависит от константы масштабирования. В случае слабо масштабированных компонент усредненные значения их признаков располагаются ближе друг к другу, а граничная область бывает весьма обширной. Граничный эффект и роль масштабирования можно ясно увидеть, расположив наблюдения по линейной шкале оттенков серого цвета. Полученный результат должен быть средним по оттенку. При сильном масштабировании соответствующего параметра можно наблюдать сразу весь спектр значений . от черного до белого, однако АНС при этом может быть очень запутанной. При более слабом масштабировании границы расширяются, и значения оказываются более или менее серыми при меньшем числе нейронов. При среднем масштабировании средне-серую окраску приобретают только один или два нейрона. Влияние основных компонент не может быть полностью элиминировано, причем меньшие по значению компоненты будут усредняться сильнее.
Одновременное использование группы плоскостей выходных изображений с различными константами масштабирования является одной из возможностей сгладить представление функции, подлежащей визуализации. Число нейронов, используемых в данном окне значений компонент, и точки, в которых нейроны меняются, различны.
Усредненное значение по группе плоскостей дает более сглаженный вид каждого отдельного параметра, поэтому в каждом конкретном случае могут быть использованы наиболее подходящие плоскости выходных изображений.
Другим способом сглаживания квантованных значений, сгенерированных АНС, является использование группы объектов, организованных в виде портфеля. Наиболее подходящий нейрон содержит значения компонент каждого объекта, которые затем суммируются и делятся на число объектов в портфеле. Слегка различающимся между собой объектам соответствуют значения нейронов, расположенных по соседству или в других подобластях, а для нетипичных объектов вычисляются, возможно, наилучшие значения.
Метод формирования портфеля особенно полезен при анализе чувствительности. В этом случае для каждого объекта и для каждого элемента плоскости выходных изображений вычисляется значение одной из компонент, а результирующее среднее значение представляется в графической (путем выделения цветом) или цифровой форме. В результате становятся видны типичные комбинации значений компонент, которые располагаются обычно вместе.
Качество различных АНС можно сравнивать, вычисляя средние значения портфелей для заданных подтипов в пространстве наблюдений. Для отдельных типов и компонент могут быть разработаны специальные плоскости выходных параметров, результаты которых будут заметно лучше. Иногда на таких плоскостях, особенно вблизи границ пространства наблюдений (там, где существенно важные нейроны при обычном алгоритме не учитываются) видны некоторые систематические ошибки.
Одним из важнейших применений портфеля является анализ редких компонент и исключительныхслучаев. Некоторые ситуации могут возникать лишь случайно.
При этом распределение наблюдений будет настолько разнообразным, что в пространстве наблюдений становится невозможной какая бы то ни было кластеризация.
Эти объекты можно сравнить с типичными значениями, не относящимися к исключительным ситуациям. С помощью определенной группировки значения компонент, входящих в портфель объектов, могут сравниваться и усредняться.
В общем случае, чтобы проверить обученную АНС на релевантность, необходимо либо иметь дополнительную информацию, не использовавшуюся при создании АНС, либо использовать для получения тех же результатов другие математические методы. Например, при проверке достоверности карты платежеспособности метод АНС можно проверить с помощью линейного дискриминантного анализа (ЛДА) (linear discriminant analysis). Эта математическая модель наиболее часто применяется для предсказания банкротств. Основой алгоритма ЛДА является вычисление по специальной формуле показателя Z , характеризующего в комплексе платежеспособность компании. Получив показатель Z для каждой компании из входного массива, необходимо нанести его значения на плоскость выходных параметров АНС. Это позволит ограничить некоторые области, состоящие из фирм со сходной, согласно проделанному анализу ЛДА, платежеспособностью. Этим областям можно дать название диапазонов неплатежеспособности (диапазоны изменения Z ). Можно сделать вывод о релевантности АНС, если определенные диапазоны неплатежеспособности ( Z 7 ) будут находиться в зоне платежеспособности на плоскости выходных параметров АНС. Аналогично, низкие диапазоны неплатежеспособности (Z 2 ) должны полностью попадать в зону банкротства. Компании с показателем Z , лежащим в диапазоне от 2 до 5, должны попадать в пограничную зону. Чтобы получить диапазоны неплатежеспособности, вместо ЛДА можно также использовать другую нейронную модель . многослойный перцептрон.
Эта модель имеет общую с ЛДА цель . получение показателя Z для использования его как меры платежеспособности. Данная модель также способна разделять нелинейные паттерны. Фактически ЛДА представляет собой частный случай многослойного перцептрона.
Содержание раздела