главная            

  d9e5a92d

Data Mining. Понятие Машинного обучения

Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.

Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining. Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.

Цель Познакомить слушателей с теоретическими аспектами технологии Data Mining, методами, возможностью их применения, дать практические навыки по использованию инструментальных средств Data Mining

Предварительные знания Желательны, но не обязательны знания по информатике, основам теории баз данных, знания по математике (в пределах начальных курсов ВУЗа), технологии обработки информации.

"За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности -горы собранных данных: И вот все больше распространяется идея о том, что эти горы полны золота".

В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. Иногда искатель находил несколько ценных самородков или мог натолкнуться на золотоносную жилу, но в большинстве случаев он вообще ничего не находил и шел дальше к другому многообещающему месту или же вовсе бросал добывать золото, считая это занятие напрасной тратой времени.

Сегодня появились новые научные методы и специализированные инструменты, сделавшие горную промышленность намного более точной и производительной. Data Mining для данных развилась почти таким же способом. Старые методы, применявшиеся математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.

Сегодня на рынке представлено множество инструментов, включающих различные методы, которые делают Data Mining прибыльным делом, все более доступным для большинства компаний.

Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.

Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining [1].


Data Mining 2
Понятие Статистики
Понятие Машинного обучения
Развитие технологии баз данных
Понятие Data Mining
Классификация аналитических систем
Мнение экспертов о Data Mining

Квалификация пользователя
Извлечение полезных сведений невозможно без хорошего понимания сути данных
Сложность подготовки данных
Отличия Data Mining от других методов анализа данных
Перспективы технологии Data Mining
Существующие подходы к анализу
Что такое данные?

Набор данных и их атрибутов
Набор данных и их атрибутов 2

Измерения

Шкалы
Шкалы 2

Данные, состоящие из записей
Графические данные
Химические данные
Форматы хранения данных
Базы данных. Основные положения
Системы управления базами данных, СУБД
Классификация видов данных
Метаданные
Выводы.

Классификация стадий Data Mining
Свободный поиск (Discovery)
Прогностическое моделирование (Predictive Modeling)
Анализ исключений (forensic analysis)
Методы на основе уравнений.
Арсенал статистических методов Data Mining классифицирован на четыре группы методов:
Кибернетические методы Data Mining
Методы Data Mining также можно классифицировать по задачам Data Mining.

Свойства методов Data Mining
Свойства методов Data Mining 2

Задачи Data Mining
Классификация задач Data Mining
Объяснение и описание
Связь понятий

От данных к решениям
От данных к решениям 2
От данных к решениям 3

Информация
Свойства информации
Требования, предъявляемые к информации
Знания
Сопоставление и сравнение понятий "информация", "данные", "знание"

Задача классификации
Задача классификации 2
Задача классификации 3
Задача классификации 4
Задача классификации 5
Задача классификации 6

Методы, применяемые для решения задач классификации
Методы, применяемые для решения задач классификации 2
Методы, применяемые для решения задач классификации 3

Точность классификации: оценка уровня ошибок
Оценивание классификационных методов

Задача кластеризации
Задача кластеризации 2
Задача кластеризации 3
Задача кластеризации 4
Задача кластеризации 5

Оценка качества кластеризации
Процесс кластеризации
Применение кластерного анализа
Практика применения кластерного анализа в маркетинговых исследованиях
Выводы
Задача прогнозирования
Сравнение задач прогнозирования и классификации

Прогнозирование и временные ряды
Прогнозирование и временные ряды 2

Тренд, сезонность и цикл
Тренд, сезонность и цикл 2
Тренд, сезонность и цикл 3

Точность прогноза
Виды прогнозов
Методы прогнозирования
Задача визуализации

Плохая визуализация
Плохая визуализация 2

Сферы применения Data Mining
Применение Data Mining для решения бизнес-задач
Страхование
Телекоммуникации
Электронная коммерция
Маркетинг
Розничная торговля
Фондовый рынок
Применение Data Mining в CRM
Исследования для правительства

Data Mining для научных исследований
Молекулярная генетика и генная инженерия
Химия
Примеры систем интеллектуальных агентов поиска:
Text Mining
Call Mining
Анализ данных в Microsoft Excel

Описательная статистика
Описательная статистика 2

Центральная тенденция
Характеристики вариации данных
Корреляционный анализ

Коэффициент корреляции Пирсона
Коэффициент корреляции Пирсона 2

Регрессионный анализ
Задачи регрессионного анализа
Уравнение регрессии
Вывод итогов

Вывод остатка
Вывод остатка 2
Вывод остатка 3

Выводы
Выводы 2
Выводы 3
Выводы 4

Преимущества деревьев решений
Процесс конструирования дерева решений
Критерий расщепления
Остановка построения дерева
Сокращение дерева или отсечение ветвей
Алгоритмы
Алгоритм C4.5
Выводы

Метод опорных векторов
Метод опорных векторов 2
Метод опорных векторов 3

Линейный SVM
Линейный SVM 2

Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев
Преимущества метода
Недостатки метода "ближайшего соседа"

Решение задачи классификации новых объектов
Решение задачи классификации новых объектов 2
Решение задачи классификации новых объектов 3

Оценка параметра k методом кросс-проверки
Байесовская классификация
Байесовская классификация нашла широкое применение на практике.

Элементы нейронных сетей
Элементы нейронных сетей 2

Архитектура нейронных сетей
Обучение нейронных сетей
Переобучение нейронной сети

Модели нейронных сетей
Модели нейронных сетей 2

Data Mining. Программное обеспечение для работы с нейронными сетями

Программное обеспечение, имитирующее работу нейронной сети, называют нейросимулятором либо нейропакетом.

Большинство нейропакетов включают следующую последовательность действий:

•              Создание сети (выбор пользователем параметров либо одобрение установленных по умолчанию).

•              Обучение сети.

• Выдача пользователю решения.

Существует огромное разнообразие нейропакетов, возможность использования нейросетей включена также практически во все известные статистические пакеты.

Среди специализированных нейропакетов можно назвать такие: BrainMaker, NeuroOffice, NeuroPro, и др.

Критерии сравнения нейропакетов: простота применения, наглядность представляемой информации, возможность использовать различные структуры, скорость работы, наличие документации. Выбор определяется квалификацией и требованиями пользователя.

Пример решения задачи
Пример решения задачи 2
Пример решения задачи 3
Пример решения задачи 4
Пример решения задачи 5
Пример решения задачи 6

Пакет Matlab
Пакет Matlab 2

Классификация нейронных сетей
Подготовка данных для обучения
Выбор структуры нейронной сети
Карты Кохонена
Задачи, решаемые при помощи карт Кохонена

Обучение сети Кохонена
Обучение сети Кохонена 2
Обучение сети Кохонена 3
Обучение сети Кохонена 4
Обучение сети Кохонена 5
Обучение сети Кохонена 6
Обучение сети Кохонена 7
Обучение сети Кохонена 8

Карты входов
Карты входов 2
Карты входов 3

Выводы
Выводы 2
Выводы 3
 Выводы 4
Выводы 5

Методы кластерного анализа

Иерархические методы кластерного анализа
Иерархические методы кластерного анализа 2

Меры сходства

Иерархический кластерный анализ в SPSS
Иерархический кластерный анализ в SPSS 2

Определение количества кластеров
Алгоритм k-средних (k-means)

Описание алгоритма
Описание алгоритма 2
Описание алгоритма 3

Алгоритм PAM ( partitioning around Medoids)
Предварительное сокращение размерности
Факторный анализ

Итеративная кластеризация в SPSS
Итеративная кластеризация в SPSS 2

Сравнительный анализ иерархических и неиерархических методов кластеризации
Новые алгоритмы и некоторые модификации алгоритмов кластерного анализа
Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
Алгоритм WaveCluster
Алгоритм CLARA (Clustering LARge Applications)

Введение в ассоциативные правила
Введение в ассоциативные правила 2
Введение в ассоциативные правила 3

Границы поддержки и достоверности ассоциативного правила

Методы поиска ассоциативных правил
Методы поиска ассоциативных правил 2

Разновидности алгоритма Apriori
AprioriHybrid

Пример решения задачи поиска ассоциативных правил
Пример решения задачи поиска ассоциативных правил 2
Пример решения задачи поиска ассоциативных правил 3
Пример решения задачи поиска ассоциативных правил 4

Визуализатор "Правила"
Визуализатор "Правила" 2
Визуализатор "Правила" 3

Визуализация инструментов Data Mining
Визуализация Data Mining моделей
Методы визуализации
Представление данных в одном, двух и трех измерениях
Представление данных в 4 + измерениях
Параллельные координаты

Лица Чернова
Лица Чернова 2

Качество визуализации
Представление пространственных характеристик
Основные тенденции в области визуализации
Разработка сложных видов диаграмм.
Повышение уровня взаимодействия с визуализацией пользователя.
Увеличение размеров и сложности структур данных, представляемых визуализацией.

Выводы
Выводы 2

Классификация СППР
OLAP-системы

OLAP-продукты
OLAP-продукты 2

Интеграция OLAP и Data Mining
Хранилища данных

Преимущества использования хранилищ данных
Преимущества использования хранилищ данных 2

Анализ предметной области
Постановка задачи Data Mining включает следующие шаги:
Подготовка данных
Определение и анализ требований к данным
Сбор данных

Предварительная обработка данных
Предварительная обработка данных 2

Очистка данных
Анализ данных.
Выводы

Инструменты очистки данных
Инструменты очистки данных 2

Инструменты ETL
Инструменты ETL 2
Инструменты ETL 3
Инструменты ETL 4

Выводы по подготовке данных
Моделирование

Виды моделей
Виды моделей 2

Математическая модель

Построение модели
Построение модели 2

Проверка и оценка моделей
Выбор модели
 Применение модели
Погрешности в процессе Data Mining
Организационные Факторы

Человеческие факторы. Роли в Data Mining
Человеческие факторы. Роли в Data Mining 2
Человеческие факторы. Роли в Data Mining 3

CRISP-DM методология
CRISP-DM методология 2
CRISP-DM методология 3

Стандарт PMML
Стандарты, относящиеся к унификации интерфейсов

Поставщики Data Mining
Поставщики Data Mining 2
Поставщики Data Mining 3

Классификация инструментов Data Mining
Программное обеспечение Data Mining для поиска ассоциативных правил
Программное обеспечение для решения задач кластеризации и сегментации
Свободно распространяемые инструменты
Выводы

Обзор программного продукта
Графический интерфейс (GUI) для анализа данных
Инструментарий для углубленного интеллектуального анализа данных
Набор инструментов для подготовки, агрегации и исследования данных
Интегрированный комплекс разнообразных методов моделирования
Интегрированные средства сравнения моделей и пакеты результатов
Скоринг по модели и простота развертывания модели
Гибкость благодаря открытости и расширяемости

Основные характеристики пакета SAS Enterprise Miner 5.1
Основные характеристики пакета SAS Enterprise Miner 5.1 2
Основные характеристики пакета SAS Enterprise Miner 5.1 3
Основные характеристики пакета SAS Enterprise Miner 5.1 4
Основные характеристики пакета SAS Enterprise Miner 5.1 5

Управление временными метриками при помощи описательных данных
Управление временными метриками при помощи описательных данных 2
Управление временными метриками при помощи описательных данных 3

Data Mining. Специализированное хранилище данных

Важность использования технологий хранилищ данных как информационной основы для Data Mining уже рассматривалась нами. Структура хранилища, оптимизированная под задачи аналитической обработки, позволяет свести к минимуму потери времени на поиск нужных данных и получение промежуточных результатов.

Подход SAS к созданию информационно-аналитических систем

Подход компании SAS к созданию информационно-аналитических систем стандартизован в рамках SAS Intelligent Warehousing solutions, рис. 23.2.


Специализированное хранилище данных 2
Технические требования пакета SASR Enterprise Miner
Архитектура системы
PolyAnalyst Workplace - лаборатория аналитика
Аналитический инструментарий PolyAnalyst
Алгоритмы кластеризации
Алгоритмы классификации

Алгоритмы ассоциации
Модули текстового анализа
Text Analysis (ТА) - текстовый анализ
Визуализация
Эволюционное программирование
Общесистемные характеристики PolyAnalyst
PolyAnalyst Scheduler - режим пакетной обработки

WebAnalyst
WebAnalyst 2
WebAnalyst 3
WebAnalyst 4
WebAnalyst 5
WebAnalyst 6
WebAnalyst 7

Система STATISTICA Data Miner
Система STATISTICA Data Miner 2

Средства анализа STATISTICA Data Miner
Средства анализа STATISTICA 2
Средства анализа STATISTICA 3
Средства анализа STATISTICA 4
Средства анализа STATISTICA 5
Средства анализа STATISTICA 6
Средства анализа STATISTICA 7
Средства анализа STATISTICA 8

Oracle Data Mining
Oracle Data Mining -функциональные возможности
Краткая характеристика алгоритмов классификации
Алгоритмы кластеризации

Поддержка процесса от разведочного анализа до отображения данных
Поддержка процесса от разведочного анализа до отображения данных 2

Архитектура Deductor Studio
Архитектура Deductor Studio 2
Архитектура Deductor Studio 3

Архитектура Deductor Warehouse

Описание аналитических алгоритмов
Описание аналитических алгоритмов 2

Обнаружение дубликатов и противоречий
Обнаружение дубликатов и противоречий 2
Обнаружение дубликатов и противоречий 3

Реинжиниринг аналитического процесса
Технические характеристики продукта

Предпосылки создания KXEN
Предпосылки создания KXEN 2

Структура KXEN Analytic Framework Version 3.0
Структура KXEN Analytic Framework 2
Структура KXEN Analytic Framework 3
Структура KXEN Analytic Framework 4

Технология IOLAP

Data Mining-услуги
Data Mining-услуги 2

Работа с клиентом
Цикл состоит из пяти этапов.
Примеры решения

Техническое описание решения
Техническое описание решения 2
Техническое описание решения 3

Выводы

там
Web-редактор Macromedia Dreamweaver MX там


Содержание