Утилита SAS Code Node
• Обеспечивает запись кода SAS для упрощения сложных процедур подготовки и преобразования данных.
• Позволяет использовать процедуры других продуктов SAS.
• Поддерживает импорт внешних моделей.
• Позволяет создавать собственные модели и узлы Enterprise Miner.
• Содержит макропеременные, упрощающие ссылку на источники данных, переменные и т.п.
• Имеет расширяемую логику формирования оценочного кода.
Исчерпывающие средства моделирования
• Выбор моделей на базе обучающей, проверочной или тестовой выборки данных с использованием различных критериев, таких как: прибыли или убытки, AIC, SBC, среднеквадратичная ошибка, частота ошибок классификации, ROC, Джини, KS (Колмогорова-Смирнова).
• Поддерживает двоичные, номинальные, порядковые и интервальные исходные данные и целевые признаки.
• Удобный доступ к оценочному коду и всем источникам данных.
• Отображение нескольких результатов в одном окне позволяет лучше оценить эффективность модели.
Регрессии
• Линейная и логистическая.
• Пошаговая, с прямой и обратной выборкой.
• Построитель условий для уравнений: полиномиальных, основных взаимодействий, поддержка иерархии эффектов.
• Перекрестная проверка.
• Правила для иерархии эффектов.
• Методы оптимизации: сопряженные градиенты, метод двойных ломаных, метод Ньютона-Рафсона с линейным или гребневым поиском, квазиньютоновский метод, метод доверительных областей.
• Оценочный код PMML.
Деревья решений
Общая методология:
• CHAID (автоматическое выявление взаимодействия по методу хи-квадрат).
• Деревья классификации и регрессии.
• C 4.5.
• Отбор деревьев на основе целевых значений прибыльности или роста с соответствующим отсечением ветвей.
Критерии расщепления: вероятностный критерий хи-квадрат, вероятностный F-критерий, критерий Джини, критерий энтропии, уменьшение дисперсии. Автоматический вывод идентификаторов листьев дерева в качестве входных значений для последующего моделирования. Отображение правил на английском языке. Вычисление значимости переменных для предварительного отбора. Уникальное представление консолидированной диаграммы дерева.
Интерактивная работа с деревом на настольном ПК:
• Интерактивное расширение и обрезание деревьев.
• Задание специальных точек разбиения, включая двоичные или многовариантные разбиения. • Свыше 13 динамически связанных таблиц и графиков, позволяющих произвести более качественную оценку дерева.
• Возможность распечатать диаграмму дерева на одном или нескольких листах.
В основе - новая быстрая процедура ARBORETUM.
Нейронные сети
Узел нейронной сети:
• Гибкие архитектуры сетей с развитыми функциями комбинирования и активации.
• 10 методов обучения сети.
• Предварительная оптимизация.
• Автоматическая стандартизация входных параметров.
• Поддержка направленных связей.
Узел самоорганизующейся нейронной сети:
• Автоматизированное создание многоуровневых персептронов для поиска оптимальной конфигурации.
• Выбор функций типа и активации из четырех различных типов архитектур.
• Оценочный код PMML.
Узел нейронной сети анализа данных (DM Neural node):
• Создание модели с уменьшением размерности и выбором функций.
• Быстрое обучение сети.
• Линейное и нелинейное оценивание.
Двухуровневое моделирование
• Последовательное и параллельное моделирование для классовых и интервальных целевых признаков. • Выбор модели в виде дерева решений, регрессии или нейронной сети на каждом уровне.
• Управление применением прогноза для классов к прогнозу интервалов.
• Точная оценка экономической выгодности клиентов.
Методы вывода путем сопоставления
• Метод отбора ближайших k-соседей для категоризации или прогноза наблюдений.
• Запатентованные методы создания дерева и поиска с уменьшенной размерностью.
Множества моделей
• Объединение прогнозов моделей для создания потенциально более сильного решения.
• Среди методов: усреднение, мажоритарная выборка, выбор максимального значения.
Сравнение моделей
• Сравнение нескольких моделей в рамках единой инструментальной оболочки для всех источников данных.
• Автоматический выбор лучшей модели на основе заданного пользователем критерия.
• Расширенная статистика соответствия и диагностики.
• Ступенчатые диаграммы.
• Кривые ROC.
• Диаграммы прибылей и убытков с возможностью выбора решения.
• Матрица неточностей (классификации).
• График распределения вероятностных оценок классовых целевых признаков.
• Ранжирование и распределение оценок интервальных целевых признаков.
Количественная оценка
• Интерактивная количественная оценка узла в рамках графического интерфейса.
• Автоматическая генерация оценочного кода на языках SAS, C, Java и PMML.
• Моделирование сбора, кластеризации, преобразования и вычисления недостающих значений для оценочных кодов на языках SAS, C и Java.
• Развертывание моделей в нескольких средах.
Инструментальные средства
• Узел удаления переменных.
• Узел слияния данных.
• Узел метаданных, позволяющий изменять столбцы метаданных, например роль, уровень измерений и порядок.