20.2.2 Иерархический кластерный анализ с более чем двумя переменными



20.2.2 Иерархический кластерный анализ с более чем двумя переменными

Рассмотрим пример из области кадровой политики некоего предприятия. 18 претендентов прошли 10 различных тестов в кадровом отделе предприятия. Максимальная оценка, которую можно было получить на каждом из тестов, составляет 10 балов. Список тестов был следующим:

№ теста

Предмет теста

1

Память на числа

2

Математические задачи

3

Находчивость при прямом диалоге

4

Тест на составление алгоритмов

5

Уверенность во время выступления

6

Командный дух

7

Находчивость

8

Сотрудничество

9

Признание в коллективе

10

Сила убеждения

Результаты теста хранятся в файле assess.sav в переменных t1-t10. В файле находится также и текстовая переменная для характеристики тестируемых. С использованием результатов теста соответствия, мы хотим провести кластерный анализ, целью которого является обнаружение групп кандидатов, близких по своим качествам.

  • Откройте файл assess.sav.

  • Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)

  • В диалоговом окне Hierarchical Cluster Analysis (Иерархический кластерный анализ) переменные tl-tlO поместите в поле тестируемых переменных, а текстовую переменную name (имя) используйте для обозначения (маркировки) наблюдений.

  • Для начала должно быть достаточно вывода обзорной таблицы порядка агломерации; не делайте больше запроса на какие-либо данные и деактивируйте вывод диаграмм. Так как все переменные в этом примере имеют одинаковые пределы значений, стандартизация переменных является излишней.

Обзорная таблица порядка агломерации выглядит следующим образом:

Agglomeration Schedule

(Порядок агломерации)

Stage (Шаг)

Cluster Combined (Объединение в кластеры)

Coefficients (Коэф-фициенты)

Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)

Next Stage (Следую-щий шаг)

Cluster 1 (Кластер 1)

Cluster 2 (Кластер 2)

Cluster 1 (Кластер 1)

Cluster 2 (Кластер 2)

1

1

4

,000

0

0

6

1

14

18

2,000

0

0

4

3

12

15

2,000

0

0

6

4

9

14

2,000

0

2

8

5

2

10

2,000

0

0

13

6

1

12

3,000

1

3

15

7

13

16

4,000

0

0

12

8

9

11

4,000

4

0

11

9

5

7

5,000

0

0

14

10

6

17

6,000

0

0

13

11

3

9

6,000

0

8

15

12

8

13

7,000

0

7

14

13

2

6

7,500

5

10

16

14

5

8

12,833

9

12

16

15

1

3

194,000

6

11

17

16

2

5

198,500

13

14

17

17

1

2

219,407

15

16

0

Значительный скачок коэффициента наблюдается после 14-го шага; как указанно в разделе 20.1, это означает, что для данных, включающих 18 наблюдений, оптимальным является решение с четырьмя кластерами. Авторы в этом месте добавляют следующее: данный пример является искусственным, и из дидактических соображений мы предварительно скомпоновали данные таким образом, чтобы получился однозначный результат. После определения оптимального количества кластеров организуем для каждого наблюдения вывод информации о принадлежности к кластеру.

  • Для этого вновь откройте диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ) и щёлкните по выключателю Statistics... (Статистики). В разделе Cluster Membership (Принадлежность к кластеру) активируйте опцию Single solution (Одно решение) и укажите желаемое количество кластеров 4.

Информацию о принадлежности каждого наблюдения к определённому кластеру вы можете сохранить в новой переменной.

  • Пройдите выключатель Save... (Сохранить), активируйте опцию Single solution (Одно решение) и для указания желаемого количества кластеров введите 4. Теперь помимо таблицы порядка агломерации для каждого наблюдения будет выводиться и информация о принадлежности к кластеру.

Из следующей таблицы видно, что в первый кластер входят четыре человека, во второй кластер — опять четыре человека, в третий кластер — пять человек и в четвёртый кластер — снова пять человек. Неясно ещё, что означают эти четыре кластера, то есть о чём говорят результаты 10 тестов, соответственно относящиеся к этим кластерам. Разобраться в значении кластеров нам помогут кластерные профили; они представляют собой средние значения переменных, которые включены в анализ, распределённые по кластерной принадлежности.

Cluster Membership (Принадлежность к кластеру)

Case (Случай)

4 Clusters (4 кластера)

1:VolkerR

1

2:Sigrid К

2

3:Elmar M

3

4:Peter В

1

5:Otto R

4

6:Elke M

2

7:Sarah К

4

8:PeterT

4

9:Gudrun M

3

10:Siglinde P

2

1 1 :Werner W

3

12:Achim Z

1

13:DieterK

4

14:Boris P

3

15:Silke W

1

16:ClaraT

4

17:Manfred К

2

18:Richard M

3

Если Вы рассмотрите данные в редакторе данных, то заметите, что добавилась переменная clu4_l; эта переменная указывает на кластерную принадлежность каждого наблюдения и может быть использована для расчёта кластерного профиля.

  • Выберите в меню Analyze (Анализ) Compare Means (Сравнить средние значения) Means... (Средние значения)

Переменным t1-t10 присвойте статус зависимых переменных, а переменной clu4_1 статус независимой переменной, и начните расчёт. В качестве результатов расчёта выводятся средние значения и стандартные отклонения итогов десяти тестов для четырёх кластеров. Для удобства поместим средние значения в отдельную таблицу.

Кластер 1

Кластер 2

Кластер 3

Кластер 4

Память на числа

10,00

10,00

4,20

4,80

Математические задачи

10,00

10,00

4,80

4,40

Находчивость при прямом диалоге

9,00

4,25

10,00

4,00

Тест на составление алгоритмов

10,00

10,00

4,40

4,00

Уверенность во время выступления

10,00

4,75

10,00

4,20

Командный дух

9,50

4,50

4,40

10,00

Находчивость

9,25

3,75

10,00

4,40

Сотрудничество

9,75

4,25

4,00

10,00

Признание в коллективе

10,00

4,25

3,80

10,00

Сила убеждения

9,50

4,25

10,00

5,00

Тестируемые, входящие в первый кластер имеют очень хорошие показатели во всех тестах. Это те конкурсанты, которые наверняка прошли бы на завершающий отборочный тур. Во второй кластер включены те, кто имеет хорошие показатели по математическим тестам (память на числа, математические задачи, тест на составление алгоритмов), но со слабыми оценками в социальной компетентности и уверенности при выступлениях. В третий кластер вошли те, кто уверенно себя чувствует во время выступления, но имеют слабые показатели в математических тестах и социальной компетентности. В конце концов, в четвёртом кластере, собраны люди с высоким уровнем социальной компетентности, но со слабыми результатами в тестах на решение математических задач и на силу убеждения.

В примерах, подобных этому, перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который большое количество переменных заменяет меньшим количеством факторов. Продемонстрируем данный процесс на следующем примере.






- Начало - - Назад - - Вперед -