Разработка тестов

Если кандидаты испытывают неудобства из-за его применения, их ответы могут быть не совсем корректны, что исказит результаты, и таким образом понизит пригодность метода. Например выполнение упражнений Входящая корреспонденция в одиночестве в тихой комнате может дать совершенно другие результаты по сравнению с его выполнением в шумной комнате в присутствии других кандидатов. Аналогичным образом, восприятие политических и других влиятельных групп, оказывающих давление на политику, может сыграть свою роль, если метод подозревается в несправедливой дискриминации этнических групп или других групп меньшинств. Например Келлет и др. (Kellet et al.) (1994) описали случай, когда компания British Rail (BR) изменила практику отбора персонала после того, как предстала перед судом. Восемь начальников поездов лондонской станции Пэддингтон с помощью Комиссии расового равенства (Commission for Racial Equality) предъявили иск BR; они считали, что процедуры оценки кандидатов, принятые в компании, отрицательно влияют на представителей этнических меньшинств.

Аналогичные проблемы были выявлены в лондонском метро London Underground. В результате судебного процесса компании получили не подлежащие обсуждению указания суда, и им пришлось изменить свои процедуры отбора. Этот пример наглядно показывает, как важно оценить практичность инструментов отбора с точки зрения их пригодности и потребления ресурсов еще до внедрения. Необходимость избегать негативного влияния на кандидатов из групп меньшинств стала важной проблемой для методов отбора.

Например Франци (Franzee) (1996) подчеркивает, что Комиссия по обеспечению равных возможностей при приеме на работу (Equal Employment Opportunity Commission) заявляет, что когда имеются видимые различия в показателях разных подгрупп населения в отдельном тесте отбора, этот тест должен иметь доказуемую содержательную или прогнозирующую достоверность, быть способным предсказывать выполнение работы в условиях, сходных с условиями отбора, и точно предсказывать будущее выполнение работы. Разработка тестов
Сегодня есть множество разных типов тестов отбора, самые распространенные из них: тесты на познавательные способности, вопросники личностных характеристик и пробные задания. И хотя их нетрудно приобрести у компаний, специализирующихся на разработке тестов, иногда необходимо разработать тест собственными силами. Разработка любого теста тесно связана с систематической подготовкой и следует определенной логической очередности. Основные положения процедуры разработки теста изложены ниже, но они не являются исчерпывающими, так как разработка теста может включать весьма сложные и запутанные процедуры.

Тем не менее эти основные положения все-таки освещают суть процесса, и поэтому те, кто выбирает между покупкой коммерческих тестов или разработкой тестов своими силами, сможет оценить составляющие процедуры, и таким образом получить более полную информацию. Интересующийся читатель может обратиться к работе Кронбаха и Глиссера (Cronbach and Glesser, 1965), чтобы ознакомиться с более полным описанием этой процедуры.
Вопросы для любого теста должны быть выбраны и сформулированы очень тщательно. Однако хорошее привило эмпирического метода гласит: они должны быть настолько простыми и ясными, насколько это возможно. Используемая терминология должна быть подобрана в расчете на конкретную целевую аудиторию.

Также нужно исключить излишние статьи или статьи, включающие два или более вопроса, так как они иногда сбивают с толку респондента и затрудняют интерпретацию. Чтобы удовлетворить всем этим требованиям, следует просмотреть весь банк вопросов - статью за статьей - и проанализировать, какой цели служит каждая из них. Например, если тест разрабатывается для измерения аналитических способностей стажеров-бухгалтеров, стоит подумать, что в этом случае означает понятие аналитические способности.

Скорее всего, большая часть работы стажера будет заключаться в извлечении информации из таблиц, графиков или секторных диаграмм. Следовательно, чтобы обеспечивать содержательную достоверность, тест должен быть разработан таким образом чтобы он измерял способность кандидата извлекать значения из таблиц и графиков, даже когда определенная информация приблизительна или упущена вовсе. Однако надо позаботиться и о том, чтобы каждая статья теста отражала только те конструкции, которые измеряются.

Также следует приложить усилия, чтобы отчетливо представлять, как будет подсчитываться результат по каждому вопросу, поскольку от этого зависит, какой тип формата подсчета следует избрать.
Существует несколько типов форматов подсчета, и их выбор настолько же важен, насколько важен выбор самих статей вопросов, так как именно формат подсчета лежит в основе решения о приеме или отклонении кандидата. Их диапазон простирается от простых ответов типа да/нет до ранжирования по некоторому типу биполярной шкалы; и у каждого способа есть свои преимущества и недостатки. Ответы да/нет проще, чем многовариантные; но они обладают меньшими возможностями установления различий, хотя увеличение объема теста может компенсировать этот недостаток. Многовариантные статьи позволяют хорошо различать способности кандидатов и часто используются в тестах на познавательные способности, например тестах на проверку знаний или тестах, выявляющих собственно способности.

Кроме того, многовариантные статьи дают возможность более точно подсчитать результаты, поскольку ответы могут быть только верными или неверными. Главный недостаток многовариантных статей заключается в том, что создать правдоподобные отвлекающие статьи (то есть неправильные ответы) довольно трудно. Если правильный ответ слишком очевиден, различительная способность теста резко снижается.

Биполярные шкалы широко используются и выключают утверждения или характеристики, оцениваемые кандидатом с точки зрения их верности или неверности.
Когда вопросы и форматы подсчета результатов выбраны, их нужно преобразовать в удобный для пользователя Формат, с ясно написанными инструкциями и вопросами-примерами; так, чтобы выполняющие тест кандидаты полностью понимали, что от них требуется. Очень часто на этом этапе разработки в тест включают больше вопросов, чем нужно. По некоторым оценкам, в три раза больше, чем останется в окончательном тесте или системе измерения.

Тогда исходной мерой станет проверка разрабатываемого теста на относительно широкой выборке из числа существующих работников, чтобы убедиться в том, что все вопросы легко понятны.
Установление отличительной ценности статей вопросов достигается путем корреляции показателя каждой отдельной статьи с показателями всего теста или субшкалы. Статьи с высокой корреляцией обычно сохраняются, а статьи с низкой корреляцией отбраковываются (см. Гилфорд и Фрухтер (Guilford and Fruchter), 1978 для получения более детального обзора анализа статей).

Когда определена приемлемость статей, составляется окончательная версия теста. Тесты на определение знаний обычно начинаются с простых вопросов, постепенно усложняющихся к концу. Когда тесты предназначаются для измерения социальных установок и личностных характеристик, возможно, будет полезным чередовать негативно и позитивно сформулированные статьи, чтобы избежать непродуманных ответов.
Последний этап представляет собой применение теста на широкой репрезентативной выборке, чтобы установить нормы выполнения, достоверности и валидности еще до начала его использования в качестве инструмента отбора. Кроме того, необходимо определить справедливость теста, чтобы убедиться, что он не дискриминирует никакие подгруппы населения (например по тендерным или этническим отличиям).
Интеграция
Практически, чем выше достоверность и валидность средства измерения или метода отбора, тем выше его ценность для точности прогнозирования выполнения работы для которой нанимается кандидат. Но как тогда можно обеспечить и оценить достоверность и валидность метода отбора? Если мы возьмем структурированные интервью, первоначальные шаги включают использование анализа содержания работы для разработки ряда измерений, способностей и образов (например, межличностные взаимоотношения, деловые навыки и т.д.), чтобы ответы на интервью могли быть оценены в соответствии с ними. После разрабатываются группы стандартных вопросов, имеющих отношение к существу работы кандидата.

Эти вопросы требуют ответа, каким образом повел бы себя в различных реалистических ситуациях на работе. Ответы должны быть систематически ранжированы (см. подробности в Главе 7) или классифицированы (например с помощью шкалы оценки) таким образом, чтобы интервьюер знал, какие ответы хорошие, а какие плохие. Это приведет к последовательной и объективной оценке ответов, что помогает максимизировать достоверность и валидность оценок лица, проводящего отбор, а также способствует стандартизации всего процесса. Стандартизация очень важна, поскольку позволяет сравнивать ответы кандидатов напрямую.

Поэтому целесообразно обучить предполагаемых интервьюеров - провести некую форму тренировочного стандартизированного интервью, предоставляющего возможности для практики, дискуссии и обратной связи.

Содержание раздела