Примите решение о том, как подобрать случаи из прошлого, которые станут для сети примерами правильной классификации или правильных предсказаний. Ваш следующий шаг - принятие решения о том, какой объем тренировочных данных (сколько случаев из прошлого) использовать. Самое важное правило, о котором следует помнить, это то, что Вам необходимо снабдить сеть достаточным количеством данных, чтобы покрыть всю область определения задачи. Хорошее практическое правило заключается в том,
чтобы использовать количество тренировочных примеров, в 10 раз превышающее количество входов.
В примере с фондовым рынком это не означает, что Вы должны иметь пример данных для каждого возможного набора переменных. Это означает, что Вы должны иметь примеры, покрывающие минимальное и максимальное значения для каждой переменной, а также достаточное количество значений в промежутке.
Включайте в тренировочный набор данные, относящиеся к делу. Данные фондового рынка 70-х годов могут не быть хорошим индикатором того, что произойдет на рынке в 90-х.
Заготовьте примеры для всех возможных предсказаний или вариантов классификации, а не только для того результата, который Вам нужен. Например, если Вас интересует только предсказание подъема на рынке, Вам тем не менее необходимо включить в тренировочный набор примеры падения на рынке, в противном случае нейронная сеть будет "сбита с толку", когда ей предъявят индикаторы для ситуации падающего рынка. Другими словами, если существуют 10 возможных результатов, Вам необходимо иметь
равное количество тренировочных примеров для каждого из результатов.
Если у Вас есть пропущенные данные, NeuroShell 2 на этапе проектирования сети предоставит Вам на выбор несколько способов обработки пропущенных данных. (За подробностями обращайтесь к описанию модуля Параметры тренировки и критерии остановки). Однако лучшее, что Вы можете сделать для заполнения пропущенных данных - это выдвинуть осознанное предположение о том, какими они должны были быть.
Содержание раздела