Мерой сходства (близости) обычно называется величина С (Sj, Sk), имеющая предел и возрастающая с возрастанием близости объектов. Под мерой сходства будем понимать неотрицательную вещественную функцию С (Sj, Sk), обладающую следующими свойствами:
Здесь Sj, Sk — множества значений признаков, описывающие сравниваемые объекты. Мера, коэквивалентная мере сходства, называется мерой различия D (Sj, Sk) и обладает свойствами метрики, если:
Свойствами (5.2) обладает, в частности, континуум эквивалентных мер, представляемых формулой
Меры сходства и различия "изобретаются" по специальным правилам [4], а выбор конкретных мер зависит, в первую очередь, от суперзадачи — цели конкретного исследования, а также от шкалы измерений. В табл. 5.4 приведены наиболее распространенные меры сходства и различия для различных значений коэффициента и (5.3), предназначенные для обработки качественных и количественных признаков.
Вычисление значений меры сходства двух сравниваемых объектов по качественным признакам удобно производить на основе бинарной матрицы, которая в терминах теории множеств задается следующим образом:
Здесь S — индексированное множество с элементами Sj (алфавит описаний),
Sj —j-e описание объекта;
Z — индексированное множество с элементами Zi (алфавит признаков или значений признаков);
Zi — i-й признак (значение признака);
xiy — одно из двух значений {0, 1} i-гo признака y j-го объекта (xij = 1, если i-й признак есть у j-го объекта, в противном случае xij = 0); J и I— индексные множества.
Бинарная матрица для вычисления меры сходства между двумя объектами имеет следующий вид:
Вычисление меры сходства, например, по формуле Чекановского — Серенсена (см. табл. 5.4) с учетом бинарной матрицы (5.4) осуществляется по следующему выражению:
где xi1, xi2 — одно из двух значений {0, 1).
Рассмотрим правила вычисления количества элементов некоторых множеств, получаемых в результате операций над ними. Количество элементов множества S равно
где р — общее число элементов множества S;
xi — значение i-ro элемента множества S, при этом
Количество элементов пересечения двух множеств S1 Ç S2 равно
где xi1, xi2 — соответственно значения i-го элемента для множеств S1 и S2 .
Количество элементов объединения двух множеств S1 È S2 равно