d9e5a92d

Стандарт PMML


В предыдущих лекциях мы уже упоминали о стандарте PMML (Predictive Modeling mark­up Language) - языке описания предикторных (или прогнозных) моделей или языке разметки для прогнозного моделирования.

PMML относится к группе стандартов по хранению и передаче моделей Data Mining.

Разработка и внедрение этого стандарта ведется IT-консорциумом DMG (Data Mining Group). DMG [103] - группа, в которую входят все лидирующие компании, разрабатывающие программное обеспечение в области анализа данных.

Основа этого стандарта - язык XML. Примером другого стандарта, также основанного на языке XML, является стандарт обмена статистическими данными и метаданными. Стандарт PMML используется для описания моделей Data Mining и статистических моделей.

Основная цель стандарта PMML - обеспечение возможности обмена моделями данных между программным обеспечением разных разработчиков.

При помощи стандарта PMML-совместимые приложения могут легко обмениваться моделями данных с другими PMML-инструментами. Таким образом, модель, созданная в одном программном продукте, может использоваться для прогнозного моделирования в другом.

По словам сторонников PMML, этот стандарт "делает Data Mining более демократичным", позволяет все большому количеству пользователей пользоваться продуктами Data Mining. Это достигается за счет возможности использования ранее созданных моделей данных. PMML позволяет использовать модели данных сколь угодно часто и существенно помогает в практической работе с ними.

Стандарт PMML включает:

•              описание анализируемых данных (структура и типы данных);

•              описание схемы анализа (используемые поля данных);

•              описание трансформаций данных (например, преобразования типов данных);

•              описание статистик, прогнозируемых полей и самих прогнозных моделей.

Стандарт PMML обеспечивает поддержку наиболее распространенных прогнозных моделей, созданных при помощи алгоритмов и методов анализа данных, в частности -нейронных сетей, деревьев решений, алгоритмов ассоциативных правил, кластерного анализа, логических правил и др.





Содержание раздела