Data Mining. Понятие Машинного обучения

Курс знакомит слушателей с технологией Data Mining, подробно рассматриваются методы, инструментальные средства и применение Data Mining. Описание каждого метода сопровождается конкретным примером его использования.

Обсуждаются отличия Data Mining от классических статистических методов анализа и OLAP-систем, рассматриваются типы закономерностей, выявляемых Data Mining (ассоциация, классификация, последовательность, кластеризация, прогнозирование). Описывается сфера применения Data Mining. Вводится понятие Web Mining. Подробно рассматриваются методы Data Mining: нейронные сети, деревья решений, методы ограниченного перебора, генетические алгоритмы, эволюционное программирование, кластерные модели, комбинированные методы. Знакомство с каждым методом проиллюстрировано решением практической задачи с помощью инструментального средства, использующего технологию Data Mining.Излагаются основные концепции хранилищ данных и места Data Mining в их архитектуре. Вводятся понятия OLTP, OLAP, ROLAP, MOLAP.Обсуждается процесс анализа данных с помощью технологии Data Mining. Подробно рассматриваются этапы этого процесса. Анализируется рынок аналитического программного обеспечения, описываются продукты от ведущих производителей Data Mining, обсуждаются их возможности.

Цель Познакомить слушателей с теоретическими аспектами технологии Data Mining, методами, возможностью их применения, дать практические навыки по использованию инструментальных средств Data Mining

Предварительные знания Желательны, но не обязательны знания по информатике, основам теории баз данных, знания по математике (в пределах начальных курсов ВУЗа), технологии обработки информации.

"За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности -горы собранных данных: И вот все больше распространяется идея о том, что эти горы полны золота".

В прошлом процесс добычи золота в горной промышленности состоял из выбора участка земли и дальнейшего ее просеивания большое количество раз. Иногда искатель находил несколько ценных самородков или мог натолкнуться на золотоносную жилу, но в большинстве случаев он вообще ничего не находил и шел дальше к другому многообещающему месту или же вовсе бросал добывать золото, считая это занятие напрасной тратой времени.

Сегодня появились новые научные методы и специализированные инструменты, сделавшие горную промышленность намного более точной и производительной. Data Mining для данных развилась почти таким же способом. Старые методы, применявшиеся математиками и статистиками, отнимали много времени, чтобы в результате получить конструктивную и полезную информацию.

Сегодня на рынке представлено множество инструментов, включающих различные методы, которые делают Data Mining прибыльным делом, все более доступным для большинства компаний.

Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.

Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining [1].

Data Mining. Программное обеспечение для работы с нейронными сетями

Программное обеспечение, имитирующее работу нейронной сети, называют нейросимулятором либо нейропакетом.

Большинство нейропакетов включают следующую последовательность действий:

• Создание сети (выбор пользователем параметров либо одобрение установленных по умолчанию).

• Обучение сети.

• Выдача пользователю решения.

Существует огромное разнообразие нейропакетов, возможность использования нейросетей включена также практически во все известные статистические пакеты.

Среди специализированных нейропакетов можно назвать такие: BrainMaker, NeuroOffice, NeuroPro, и др.

Критерии сравнения нейропакетов: простота применения, наглядность представляемой информации, возможность использовать различные структуры, скорость работы, наличие документации. Выбор определяется квалификацией и требованиями пользователя.

Пример решения задачи
Пакет Matlab

Классификация нейронных сетей
Подготовка данных для обучения
Выбор структуры нейронной сети
Карты Кохонена
Задачи, решаемые при помощи карт Кохонена

Обучение сети Кохонена
Карты входов
Выводы

Методы кластерного анализа
Иерархические методы кластерного анализа
Меры сходства
Иерархический кластерный анализ в SPSS

Определение количества кластеров
Алгоритм k-средних (k-means)
Описание алгоритма
Алгоритм PAM ( partitioning around Medoids)
Предварительное сокращение размерности
Факторный анализ

Итеративная кластеризация в SPSS
Сравнительный анализ иерархических и неиерархических методов кластеризации
Новые алгоритмы и некоторые модификации алгоритмов кластерного анализа
Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
Алгоритм WaveCluster
Алгоритм CLARA (Clustering LARge Applications)

Введение в ассоциативные правила
Границы поддержки и достоверности ассоциативного правила
Методы поиска ассоциативных правил
Разновидности алгоритма Apriori
AprioriHybrid

Пример решения задачи поиска ассоциативных правил
Визуализатор "Правила"

Визуализация инструментов Data Mining
Визуализация Data Mining моделей
Методы визуализации
Представление данных в одном, двух и трех измерениях
Представление данных в 4 + измерениях
Параллельные координаты

Лица Чернова
Качество визуализации
Представление пространственных характеристик
Основные тенденции в области визуализации
Разработка сложных видов диаграмм.
Повышение уровня взаимодействия с визуализацией пользователя.
Увеличение размеров и сложности структур данных, представляемых визуализацией.
Выводы

Классификация СППР
OLAP-системы
OLAP-продукты
Интеграция OLAP и Data Mining
Хранилища данных

Преимущества использования хранилищ данных
Анализ предметной области
Постановка задачи Data Mining включает следующие шаги:
Подготовка данных
Определение и анализ требований к данным
Сбор данных

Предварительная обработка данных
Очистка данных
Анализ данных.
Выводы
Инструменты очистки данных

Инструменты ETL
Выводы по подготовке данных
Моделирование
Виды моделей
Математическая модель

Построение модели
Проверка и оценка моделей
Выбор модели
Применение модели
Погрешности в процессе Data Mining
Организационные Факторы

Человеческие факторы. Роли в Data Mining
CRISP-DM методология
Стандарт PMML
Стандарты, относящиеся к унификации интерфейсов
Поставщики Data Mining

Классификация инструментов Data Mining
Программное обеспечение Data Mining для поиска ассоциативных правил
Программное обеспечение для решения задач кластеризации и сегментации
Свободно распространяемые инструменты
Выводы

Обзор программного продукта
Графический интерфейс (GUI) для анализа данных
Инструментарий для углубленного интеллектуального анализа данных
Набор инструментов для подготовки, агрегации и исследования данных
Интегрированный комплекс разнообразных методов моделирования
Интегрированные средства сравнения моделей и пакеты результатов
Скоринг по модели и простота развертывания модели
Гибкость благодаря открытости и расширяемости

Основные характеристики пакета SAS Enterprise Miner 5.1
Управление временными метриками при помощи описательных данных

Data Mining. Специализированное хранилище данных

Важность использования технологий хранилищ данных как информационной основы для Data Mining уже рассматривалась нами. Структура хранилища, оптимизированная под задачи аналитической обработки, позволяет свести к минимуму потери времени на поиск нужных данных и получение промежуточных результатов.

Подход SAS к созданию информационно-аналитических систем

Подход компании SAS к созданию информационно-аналитических систем стандартизован в рамках SAS Intelligent Warehousing solutions, рис. 23.2.

Data Mining

Специализированное хранилище данных
Технические требования пакета SASR Enterprise Miner
Архитектура системы
PolyAnalyst Workplace - лаборатория аналитика
Аналитический инструментарий PolyAnalyst
Алгоритмы кластеризации
Алгоритмы классификации

Алгоритмы ассоциации
Модули текстового анализа
Text Analysis (ТА) - текстовый анализ
Визуализация
Эволюционное программирование
Общесистемные характеристики PolyAnalyst
PolyAnalyst Scheduler - режим пакетной обработки

WebAnalyst
Система STATISTICA Data Miner
Средства анализа STATISTICA Data Miner

Oracle Data Mining
Oracle Data Mining -функциональные возможности
Краткая характеристика алгоритмов классификации
Алгоритмы кластеризации
Поддержка процесса от разведочного анализа до отображения данных

Архитектура Deductor Studio
Архитектура Deductor Warehouse
Описание аналитических алгоритмов
Обнаружение дубликатов и противоречий

Реинжиниринг аналитического процесса
Технические характеристики продукта
Предпосылки создания KXEN
Структура KXEN Analytic Framework Version 3.0
Технология IOLAP

Data Mining-услуги
Работа с клиентом
Цикл состоит из пяти этапов.
Примеры решения
Техническое описание решения
Выводы

там
Web-редактор Macromedia Dreamweaver MX там

Содержание

Нейрокомпьютерная техника. Теория и практика

Что такое искусственные нейронные сети? Что они могут делать? Как они работают? Как их можно использовать? Эти и множество подобных вопросов задают специалисты из разных областей. Найти вразумительный ответ нелегко. Университетских курсов мало, семинары слишком дороги, а соответствующая литература слишком обширна и специализированна. Готовящиеся к печати превосходные книги могут обескуражить начинающих. Часто написанные на техническом жаргоне, многие из них предполагают свободное владение разделами высшей математики, редко используемыми в других областях.
Эта книга является систематизированным вводным курсом для профессионалов, не специализирующихся в математике. Все важные понятия формулируются сначала обычным языком. Математические выкладки используются, если они делают изложение более ясным. В конце глав помещены сложные выводы и доказательства, а также приводятся ссылки на другие работы. Эти ссылки составляют обширную библиографию важнейших работ в областях, связанных с искусственными нейронными сетями. Такой многоуровневый подход не только предоставляет читателю обзор по искусственным нейронным сетям, но также позволяет заинтересованным лицам серьезнее и глубже изучить предмет.
Значительные усилия были приложены, чтобы сделать книгу понятной и без чрезмерного упрощения материала. Читателям, пожелавшим продолжить более углубленное теоретическое изучение, не придется переучиваться. При упрощенном изложении даются ссылки на более подробные работы.

Основы искусственных нейронных сетей
Оптические нейронные сети

Компьютерная Эра. Философия компьютера

Вообще, слово “компьютер” переводится как “вычислитель”. Именно потребность в автоматизации и убыстрении вычислений подвигла 18-летнего француза Блеза Паскаля изобрести в 1642 году суммирующую машину — «паскалин» — первый арифмометр, механически выполнявший сложение. В 1673 году уже немецкий математик Готфрид Вильгельм Лейбниц построил свой механический арифмометр — «машину четырех действий». Основными «считающими» деталями в этих приборах были зубчатые колесики, причем один зубчик всегда был длиннее остальных, этим длинным зубчиком зацеплялось соседнее колесико и поворачивалось на некоторый угол. В окошечке выскакивала другая цифра, нежели набранная ранее. Система взаимосвязанных колесиков (с десятью или двумя зубчиками — в зависимости от того, какая система счисления использовалась в данном арифмометре) позволяла производить четыре арифметических действия — сложение, вычитание, умножение и деление, и была хорошим подспорьем для расчетчиков баллистических таблиц для артиллерийских стрельб, да и не только для них.

Must die — «черт бы его побрал»

Организация и функционирование компьютеров

Программировать в широком смысле - это значит составить такое предписание для компьютера, чтобы он совершил то целенаправленное действие, которое от него ожидается. Причем обязателен один важный аспект этого процесса - повторяемость. Вы один раз совершаете некую работу - составляете программу - после чего компьютер получает возможность выполнять нужное действие всякий раз, когда это от него требуется. Современные программы дискретны и состоят из отдельных элементарных операций – команд. Команда позволяет компьютеру в каждой ситуации однозначно и правильно выполнить следующее действие. Весь процесс программирования в общем случае подразумевает, прежде всего, формулировку цели программы, затем анализ содержания задачи и, наконец, создание программы для компьютера. Для этого программист должен уметь учитывать все случаи, которые могут встретиться в процессе работы программы, и предусмотреть для них правильное действие.
Уже с давних времен ученые задумывались над проблемой формализации умственной деятельности человека, в частности, вычислений. Проблема заключается в построении такой последовательности шагов решения задачи, при выполнении которой выбор очередного шага однозначно предопределен предыдущими шагами. Конкретная модель вычислительного процесса называется алгоритмом, а построение алгоритма решения задачи называется алгоритмизацией.

Компьютер – универсальная вычислительная машина
Основные понятия и сетевая терминология

Что вы должны знать о своем компьютере

Сегодня компьютерная техника и программное обеспечение развивается настолько стремительно, что практически каждый год появляются новые модели процессоров. Если два года назад компьютером года можно было назвать систему на базе процессора Intel 80386, то сегодня они уже практически сняты с производства. Их цена не отличается от гораздо более мощных процессоров 80486.
Еще недавно компьютер с центральным процессором Intel 80486DX2, работающий на тактовой частоте 66 Мгц, был пределом мечтаний многих программистов. Сегодня вычислительная мощь такого компьютера уже не впечатляет. Основной производитель процессоров, фирма Intel, постепенно отходит от производства процессоров серии 80486 и переключается на Pentium. Многие другие фирмы также заявили о скором выпуске собственных моделей процессоров следующего поколения, возможности которых даже превосходят возможности Pentium.
Совершенствованию подвергается не только центральный процессор компьютера. Все остальные подсистемы также быстро развиваются. Возрастает емкость накопителей на жестких дисках. Диск объемом 540 Мбайт стал стандартом для большинства конфигураций. А ведь всего несколько лет назад жесткий диск объемом 80 Мбайт мог обеспечить все потребности пользователя.

Корпус системного блока компьютера
Форматирование жесткого диска

Диагностика зависания и неисправностей компьютера 2

Работа в сервис-центре по ремонту импортной электронной техники позволила накопить определенный материал по надежности работы отдельных узлов и компонентов и разработать методику поиска неисправностей, которая позволяет сократить время и путь диагностики и ремонта компьютера от симптома неисправности до неисправной платы или компонента.
Необходимо отметить, что в 80-е годы ремонт производился в основном путем замены плат и узлов, а в 90-е годы в связи с появлением на рынке большого выбора зарубежных радиокомпонентов и комплектующих ремонт стал производиться вплоть до неисправной детали или компонента (микросхемы, транзистора, диода и т. п.), что значительно удешевляет ремонт, но требует повышенной квалификации ремонтника.

Характеристика причин зависаний и отказов
Диагностика и ремонт мониторов