d9e5a92d

Процедуры использования АНС

Рассмотрим шаг за шагом процедуры использования методики АНС для решения задач, связанных с оценкой финансово-экономического состояния предприятий.
Процесс кластеризации и визуального представления входных массивов данных с использованием данного алгоритма можно разбить на 12 основных этапов:
1. Определение цели анализа.
2. Выбор источников данных и определение требований к ним.
3. Определение необходимых объемов данных и используемых переменных.
4. Определение алгоритмов предварительной обработки каждой переменной.
5. Выявление данных, наиболее типичных для входного набора.
6. Выбор дополнительных методов кластеризации и визуализации.
7. Определение желаемого размера изображения, отношения высоты к ширине и степень детализации.
8. Настройка АНС на оптимальную кластеризацию и визуализацию.
9. Интерпретация результатов, выявление кластеров и нетипичных объектов.
10. Расстановка на плоскости выходных параметров соответствующих меток.
11. Формулировка полученных результатов на основе различия между кластерами.
12. Оценка результатов, полученных с помощью АНС.


Нормирование на основе привязки к другим переменным (linking) означает, что, если две компоненты измеряются в одних и тех же единицах, например, в рублях, и обе имеют один и тот же диапазон изменения, их может быть удобно нормировать с помощью одного фактора.
При автоматическом нормировании, как правило, компонента нормируется по стандартному отклонению, если диапазон ее изменения не превышает восьми стандартных отклонений. В противном случае нормирование производится по диапазону ее изменения. Число «8» выбрано, исходя из эвристических соображений, поскольку, как показывает практика, это приводит к более или менее естественному нормированию. В большинстве случаев лучше позволить компьютерной программе произвести нормирование переменных в соответствии с параметрами, предлагаемыми по умолчанию.
Присвоение переменной более или менее высокого приоритета имеет тот же эффект, что и явное изменение нормировки. Вводя приоритеты переменных, исследователь производит взвешивание переменных в процессе формирования плоскости выходных параметров. Например, если при сравнительной оценке эффективности работы предприятий показатель оборачиваемости активов считается менее важным, этой переменной может быть присвоен более низкий приоритет.
Приоритет переменной придает ей дополнительный вес путем умножения данного фактора на его внутренний масштаб. Если установленный приоритет превышает единицу, внутреннее представление соответствующей переменной будетохватывать более широкий диапазон, в результате чего кластеры, расположенные вдоль соответствующей оси, станут более протяженными. Напротив, если установленный приоритет не превышает единицы, соответствующая компонента будет сжата, и ее влияние на результирующую картину снизится. В частности, если фактору приоритета присвоено очень малое значение, например от 0 до 0,1, то влияние соответствующей компоненты становится абсолютно несущественным.
Этот эффект можно использовать при связывании того или иного параметра с остальными данными в целях устранения его влияния на процесс упорядочивания выходных параметров. Например, если при анализе прибыльности предприятий желательно, чтобы решающую роль в визуальном представлении играли затраты на персонал, можно определить приоритет соответствующего параметра большим единицы. Аналогично, если параметр краткосрочной задолженности не должен иметь большого значения, необходимо установить для него более низкий приоритет. Очевидно, что распределение приоритетов может приводить к значительным изменениям вида результирующих структур на плоскости выходных параметров.
Выбирая диапазон изменения переменной по гистограмме и устанавливая величину коэффициента увеличения, можно добавлять либо удалять записи в той или иной области пространства данных. Этот процесс обычно называется модификацией данных. Выбор диапазона увеличения является очень тонкой процедурой, поэтому использовать ее следует с большой осторожностью. Менее критичным является подавление части данных, которое может оказаться полезным при исключении выбросов или выборе диапазона для построения гистограмм. Если исследователя интересуют конкретные участки диапазона изменения данных, увеличение данных участков может послужить эффективным средством для того, чтобы сосредоточить процесс создания плоскости выходных параметров в соответствующей области. Любая модификация множества данных отражается на гистограмме не только выбранной, но и других компонент, поскольку при этом происходит добавление или удаление не только отдельных компонент, но записей данных в целом.


Как правило, АНС позволяет обрабатывать наборы входных данных с некоторым количеством пропущенных параметров. Как отмечалось в предыдущем разделе, это является одним из важных преимуществ алгоритма. Таким образом, отсутствие нескольких значений во входных наборах не означает, что эти наборы должны быть удалены. Но если количество пропущенных данных в определенных наборах значительно, скажем, более 50%, то соответствующие векторы целесообразно исключить в процессе модификации данных.
Преобразование данных может быть использовано применительно к любой переменной с целью оценки ее значимости или влияния на окончательный результат.
Наиболее распространенными видами преобразования являются логарифмическое и сигмоидное. В ходе преобразования первого типа производится сжатие масштаба высоких значений переменных, последнее же принимает во внимание выбросы. Как правило, компьютерные программы, реализующие алгоритм АНС, предлагают установленные по умолчанию значения параметров преобразования, обеспечивающие достаточно правдоподобный выбор градиентов и смещения.
В процессе преобразования данных изменяются характеристики распределения данных. Внутреннее представление данных переопределяется переменной с помощью выбранной функции. Поскольку при этом изменяются расстояния между записями, данная процедура оказывает влияние на внутренние отношения соседства во множестве данных. Поэтому пользоваться этим средством следует с осторожностью.
Преобразование данных может также применяться для выравнивания гистограмм. Предположим, что записи конкретной переменной сконцентрированы, главным образом, в левой части ее гистограммы, и меньшее число записей имеет большие значения. В этом случае можно начать формирование АНС с более равномерного распределения плотности данных. Применение логарифмического преобразования ведет к большему выравниванию распределения, поскольку логарифмическая функция обладает высоким разрешением в области малых значений на гистограмме. За счет этого меньшие значения будут оказывать большее влияние на кластеризацию данных.
Напротив, сигмоидная функция создает более сбалансированное распределение путем растяжения центра гистограммы и сдвига ее концов. Преобразования с помощью сигмоидной функции позволяют обрабатывать резкие выбросы в исходных данных, не исключая их из рассмотрения.

Содержание раздела