Критерии отбора

Решение о качестве каждой модели должно приниматься на основе некоторого численного критерия.
Самым простым критерием (одна из форм которого используется в линейном регрессионном анализе) является сумма (по всем примерам) квадратов разностей между действительным выходом и предсказанием модели, деленная на сумму квадратов действительных выходов. Этот критерий называется Нормированная средняя квадратичная ошибка или Норм. СКО (в литературе также часто используется название TSE - Training Squared Error, квадратичная ошибка тренировки.).
Впрочем, если Вы попытаетесь использовать только Норм. СКО на реальных данных (или даже на модельных данных с некоторым добавлением шума), Вы увидите, что значение Норм. СКО становится все меньше и меньше по мере добавления к модели новых членов. Чем сложнее модель, тем она точнее. Это всегда так, если используется лишь
критерий Норм. СКО, определяющий качество модели на основании той же информации, которая уже использовалась для построения модели. Результатом этого является
переусложненная или "переученная" модель, что означает, что модель плохо обобщает, так как обращает слишком много внимания на шум в тренировочных данных. Это очень похоже на переучивание других нейронных сетей.
Чтобы избежать этой опасности, необходимо применять более мощный критерий, основанный на информации, отличной от той, которая использовалась при построении оцениваемой модели. Существует ряд способов определения таких критериев, называемых Критериями отбора.
Например, можно вычислить квадратичную сумму отклонений между известными значениями выхода и предсказаниями модели по какому-либо другому набору экспериментальных данных (тестовому набору). В МГУА такой критерий называется Регулярность. Это Калибровка, примененная в МГУА. Другим способом избежать переучивания является введение штрафа за сложность модели. Так работает, например, критерий PSE (Prediction Squared Error - Квадратичная ошибка предсказания), предложенный А.Р.Барроном.
Теоретическое рассмотрение показывает, что следует прекратить усложнение модели, когда критерий отбора достигнет минимума. Величина этого минимума является мерой надежности модели.

Метод поиска лучшей модели, основанный на переборе всех возможных моделей, обычно называют Комбинаторным алгоритмом МГУА. Он иногда используется для решения простых задач или в ситуациях, когда у пользователя есть некая априорная информация о том, как должны выглядеть опорные функции. Впрочем, ясно, что полный перебор для задачи с большим количеством входов и большим набором опорных функций практически невозможен, так как он потребовал бы слишком длительного времени. В
NeuroShell 2 реализован другой вариант МГУА.

Многослойный алгоритм МГУА (реализованный в NeuroShell 2) Чтобы сократить время вычислений, следует уменьшить количество опорных функций (и количество входных переменных), используемых для построения оцениваемых моделей. Чтобы сделать это, необходимо перейти от одноступенчатой процедуры отбора моделей к многослойной процедуре. Как это делается?
Для начала, возьмем первые две входные переменные и создадим на их основе простой набор опорных функций. Например, если первые две входные переменные обозначить как X1 и X2, то набор опорных функций мог бы выглядеть так: {1, X1, X2, X1*X2} (1 соответствует константе).
Теперь проверим все возможные модели, составленные из этих функций, и выберем наилучшую. (Любую из проверяемых моделей называют Кандидатом в призеры.)
На следующем шаге возьмем другую пару входных переменных и повторим процедуру, получая другого кандидата в призеры со своим собственным значением критерия отбора. Сделав то же самое для всех возможных пар из n входных переменных, получим n*(n-1)/2 кандидатов в призеры, каждый со своим собственным значением критерия отбора.
Теперь сравним эти значения и выберем несколько кандидатов в призеры, обеспечивающих наилучшую аппроксимацию выходной переменной. Обычно выбирают заранее оговоренное число F наилучших кандидатов в призеры, которые хранятся в первом слое сети и сохраняются для следующего слоя. Эти F отобранных кандидатов называют Призерами.
Призеры используются в качестве входных переменных для построения следующего слоя сети. Первоначальные входные переменные первого слоя также могут быть использованы в качестве входов этого нового слоя. В построении следующего слоя участвуют полиномы с этим расширенным набором входов. Заметим, что так как некоторые входы уже представляют собой полиномы, следующий слой может содержать очень сложные полиномы.
Процедура построения нового слоя в МГУА повторяется, пока критерий отбора продолжает уменьшаться. Вариант алгоритма МГУА, реализованный в NeuroShell 2, проверяет, так ли это, и продолжает либо прекращает тренировку. Могут быть также и другие условия, влияющие на то, когда тренировка будет остановлена. За дальнейшей информацией обратитесь к разделам Параметры тренировки Простого МГУА и Параметры тренировки Расширенного МГУА.
Работа этого алгоритма имеет прямые аналогии с работой садовника в процессе селекции нового гибрида. Садовник высевает семена, ждет, пока растения вырастут, и выбирает несколько растений, для которых желаемое свойство является наиболее ярко выраженным. Затем он собирает семена у выбранных растений и высевает их вновь, выращивая второе поколение. Затем он выбирает несколько растений из этого поколения, собирает семена, снова высевает их и т.д., пока не получит растение, обладающее желаемым свойством в полной мере.
Содержание раздела