d9e5a92d

Простой графический интерфейс, создающий диаграммы


Интерфейсы

Простой графический интерфейс, создающий диаграммы процессов обработки данных:

•              Быстрое создание большого числа качественных моделей.

•              Возможность доступа через Web-интерфейс.

•              Доступ к среде программирования SAS.

•              Возможность обмена диаграммами в формате XML.

•              Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей.

Пакетная обработка:

•              Включает в себя все те же возможности, что и графический интерфейс.

•              Основана на языке SAS macro.

Экспериментальный интерфейс Java API.

Репозитарий моделей с Web-интерфейсом:

•              Управление большими портфелями моделей.

•              Поиск моделей по заданному алгоритму, целевой переменной и т.п.

•              Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных.



Масштабируемая обработка

•              Серверная обработка -обучение модели в асинхронном режиме. Аккуратная остановка обработки (по заданным критериям).

•              Параллельная обработка -одновременный запуск нескольких диаграмм или инструментов.
•              Многопоточные прогностические алгоритмы.

•              Все хранение и обработка данных -на серверах.

Доступ к данным

Доступ более чем к 50 различным файловым структурам.

Интеграция с пакетом SAS ETL Studio посредством SAS Metadata Server:

•              SAS ETL Studio можно использовать для определения исходных, обучающих таблиц для пакета Enterprise Miner.

•              SAS ETL Studio можно использовать для извлечения и развертывания скоринг-кода пакета Enterprise Miner.


Выборки

•              Простая случайная.

•              Стратифицированная.

•              Взвешенная.

•              Кластерная.

•              Систематическая.

•              Первые N наблюдений.

•              Выборка редких событий.

Разбивка данных

•              Создание обучающих, проверочных и тестовых наборов данных.

•              Обеспечение качественного обобщения моделей на основании контрольных данных.

•              Стандартная стратификация по целевому классу.

•              Сбалансированная разбивка по любой классовой переменной.

Преобразования

•              Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное. •              Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.

•              Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.

Фильтрация недостоверных данных

•              Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.

•              Объединение классовых значений, встречающихся менее n раз.

Замена данных

•              С использованием мер центрированности.

•              На основе распределения.

•              Заполнение дерева суррогатными значениями.

•              Методом усреднения расстояний.

•              С использованием устойчивых M-оценок.

•              С использованием стандартных констант.

Описательная статистика

Одномерные статистические таблицы и графики:

•              Интервальные переменные n, среднее, медиана, минимум, максимум, стандартное отклонение, масштабированное отклонение и процент отсутствия.

•              Классовые переменные число категорий, счетчики, модальные, процентные модальные, процент отсутствия.

•              Графики распределения.

•              Статистическая разбивка для каждого уровня целевых классов.

Двумерные статистические таблицы и графики:

•              Упорядоченные графики корреляции Пирсона и Спирмана.

•              Упорядоченный график хи-квадрат с возможностью группировки непрерывных исходных данных по n группам.

•              График коэффициентов вариации.

Отбор переменных по logworth-критерию.

Другие интерактивные графики:

•              "Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.

•              Графики стоимости переменных, ранжирующие первоначальные значенияна основании их стоимости по целевому признаку.

•              Распределения классовых переменных по целевым признакам и/или сегментным переменным.

Графики масштабированного среднего отклонения.

Графика/визуализация

Графики, создаваемые в пакетном и интерактивном режимах: графики разброса, гистограммы, многомерные графики, круговые диаграммы, диаграммы с областями, пузырьковые диаграммы.

Удобный Java-мастер для построения графиков:

•              Заголовки и сноски.

•              Возможность применения к данным предложения WHERE.

•              Возможность выбора из нескольких цветовых схем.

•              Простота масштабирования осей.

•              Использование данных, полученных в результате анализа в пакете Enterprise Miner, для создания специализированных графиков.

Динамическая загрузка данных в клиентское приложение при помощи нескольких методик выборки.

Удобное копирование данных и графиков в другие приложения, а также возможность их сохранения в виде файлов GIF или TIF.

Кластеризация

•              По выбору пользователя или автоматический -выбор k лучших кластеров.

•              Различные стратегии кодирования классовых переменных в процессе анализа.

•              Управление недостающими данными.

•              Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера.

•              Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.

•              Оценочный код PMML.

Анализ рыночной корзины

Выявление ассоциаций и причинно-следственных связей:

•              Сетевой график правил, упорядоченный по степени достоверности.

•              Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил.

•              Статистическая гистограмма частотных показателей в заданных границах поддержки и достоверности.

•              График зависимости разброса достоверности от прогнозируемой достоверности.

•              Таблица описания правил.

•              Сетевой график правил.

Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование.

Удобный вывод правил обеспечивает кластеризацию клиентов по их покупательным и поведенческим характеристикам.

Оценочный код PMML.

Анализ Web-активности

•              Масштабируемое и эффективное выявление наиболее популярных Интернет-маршрутов на основе анализа данных об Интернет-активности пользователей.

•              Выявление наиболее частых последовательностей в последовательных данных любого типа.

Уменьшение размерности

Выбор переменных:

•              Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2.

•              Удаление переменных из иерархий.

•              Удаление переменных со многими недостающими значениями.

•              Сокращение числа классовых переменных с большим количеством уровней.

•              Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей.

•              Выявление взаимодействий.

Главные компоненты:

•              Вычисление собственных значений и собственных векторов на основании матриц корреляции и ковариации. •              Графики: масштабированное отклонение, логарифмические собственные значения, кумулятивные пропорциональные собственные значения.

•              Исследование выбранных основных компонентов при помощи методов предиктивного моделирования.

Исследование временных рядов:

•              Сокращение объемов транзакционных данных на основе формирования временных рядов с использованием разнообразных методов аккумуляции и преобразования.

•              Методы анализа включают сезонный анализ, анализ тенденций, анализ временных областей, сезонную декомпозицию.

•              Исследование сокращенных временных рядов при помощи методов кластерного и предиктивного моделирования.




Содержание раздела