Меры сходства и различия.

Мерой сходства (близости) обычно называется величина С (Sj, Sk), имеющая предел и возрастающая с возрастанием близости объектов. Под мерой сходства будем понимать неотрицательную вещественную функцию С (Sj, Sk), обладающую следующими свойствами:

Здесь Sj, Sk — множества значений признаков, описывающие сравниваемые объекты. Мера, коэквивалентная мере сходства, называется мерой различия D (Sj, Sk) и обладает свойствами метрики, если:

Свойствами (5.2) обладает, в частности, континуум эквивалентных мер, представляемых формулой

Меры сходства и различия "изобретаются" по специальным правилам [4], а выбор конкретных мер зависит, в первую очередь, от суперзадачи — цели конкретного исследования, а также от шкалы измерений. В табл. 5.4 приведены наиболее распространенные меры сходства и различия для различных значений коэффициента и (5.3), предназначенные для обработки качественных и количественных признаков.

Вычисление значений меры сходства двух сравниваемых объектов по качественным признакам удобно производить на основе бинарной матрицы, которая в терминах теории множеств задается следующим образом:

Здесь S — индексированное множество с элементами Sj (алфавит описаний),

Sj —j-e описание объекта;

Z — индексированное множество с элементами Zi (алфавит признаков или значений признаков);

Zi — i-й признак (значение признака);

xiy — одно из двух значений {0, 1} i-гo признака y j-го объекта (xij = 1, если i-й признак есть у j-го объекта, в противном случае xij = 0); J и I— индексные множества.

Бинарная матрица для вычисления меры сходства между двумя объектами имеет следующий вид:

Вычисление меры сходства, например, по формуле Чекановского — Серенсена (см. табл. 5.4) с учетом бинарной матрицы (5.4) осуществляется по следующему выражению:

где xi1, xi2 — одно из двух значений {0, 1).

Рассмотрим правила вычисления количества элементов некоторых множеств, получаемых в результате операций над ними. Количество элементов множества S равно

Меры сходства и различия.

где р — общее число элементов множества S;

xi — значение i-ro элемента множества S, при этом

Количество элементов пересечения двух множеств S1 Ç S2 равно

где xi1, xi2 — соответственно значения i-го элемента для множеств S1 и S2 .

Количество элементов объединения двух множеств S1 È S2 равно

Меры сходства и различия.