что такое процентиль в психодиагностике

Что такое процентиль?

что такое процентиль в психодиагностике. Смотреть фото что такое процентиль в психодиагностике. Смотреть картинку что такое процентиль в психодиагностике. Картинка про что такое процентиль в психодиагностике. Фото что такое процентиль в психодиагностике

Что такое процентиль?

Термин ″процентиль″ (percentile) часто встречается в зарубежной литературе про инвестиции и вообще в статистических исследованиях – одно из таких исследований я упоминал в этой статье. Другими вариантами русских названий являются ″персентиль″ и ″перцентиль″. Думаю, что небольшая известность термина в России не вполне заслужена, поскольку нередко именно в процентилях удобно выразить полученные результаты.

Процентиль это определенная часть выборки данных

Возьмем простой пример. Группа студентов из 200 человек пишет тест, состоящий из 100 вопросов. Проходной порог, когда тест считается сданным, составляет 2/3 правильных ответов, т.е. не менее 66. Что получается с точки зрения отдельного студента?

Допустим, Иван правильно ответил на 70 вопросов. Задачу он выполнил — тест засчитан. Результат каждого участника теста также сравнивается с числом 66: если правильных ответов больше, тест сдан. В результате формируется список сдавших и не сдавших: каждый студент проходил через это. Пока ничего нового.

что такое процентиль в психодиагностике. Смотреть фото что такое процентиль в психодиагностике. Смотреть картинку что такое процентиль в психодиагностике. Картинка про что такое процентиль в психодиагностике. Фото что такое процентиль в психодиагностике

Но задачу можно поставить и по-другому: нужно сравнить результаты студентов не с проходным баллом в 66 пунктов, а между собой. Зачем это нужно? В данном случае, например, для объективной оценки сложность теста, что достигается группировкой результатов.

Вернемся к Ивану, который получил 70 правильных ответов. Много это или мало по сравнению с остальными? Это и покажет процентиль.

Процентили делят всю выборку на определенные части. Например, пятый процентиль охватывает 5% объема выборки. Предположим, показатель Ивана равен пятому процентилю. Это означает, что Иван написал тест лучше, чем 5% студентов (10 человек из 200 получили от нуля до 70 баллов). Не густо, поскольку в этом случае остальные 190 человек набрали больше, чем 70. Значит, тест был очень легкий и порог в 66 баллов можно и повысить.

Но в том же самом тесте может быть и обратная ситуация: результат Ивана равен 90-ому процентилю. Это значит, что Иван написал тест лучше, чем 90% студентов. Или по другому: только 10% (20 человек) набрали более 70 правильных ответов. Следовательно, тест был весьма трудным. Преимущество метода еще и в том, что разбивкой на процентили можно сравнивать тесты с разным числом участников.

Функция Гаусса

что такое процентиль в психодиагностике. Смотреть фото что такое процентиль в психодиагностике. Смотреть картинку что такое процентиль в психодиагностике. Картинка про что такое процентиль в психодиагностике. Фото что такое процентиль в психодиагностике

Чем более высок процентиль, тем больше данных он включает

Расчет процентиля в Excel

Процентиль несложно вычислить по формуле:

что такое процентиль в психодиагностике. Смотреть фото что такое процентиль в психодиагностике. Смотреть картинку что такое процентиль в психодиагностике. Картинка про что такое процентиль в психодиагностике. Фото что такое процентиль в психодиагностике

но проще обрабатывать массив данных одноименной функцией Excel. Для примера возьмем произвольную выборку полученных баллов и рассчитаем в ней процентили:

что такое процентиль в психодиагностике. Смотреть фото что такое процентиль в психодиагностике. Смотреть картинку что такое процентиль в психодиагностике. Картинка про что такое процентиль в психодиагностике. Фото что такое процентиль в психодиагностике

Функция PERCENTILE (ПЕРСЕНТИЛЬ) включает в себя ввод диапазона ячеек данных (А1:А10) и значения процентиля К, деленного на 100%. Т.е. в данном случае ввод 0.3 означает нахождение тридцатого процентиля. Смысл расчета: к 30-му процентилю будут относиться все результаты, меньше или равные 7.9.

Если мы хотим узнать процентиль участника, получившего 10 баллов, то это несложно сделать, варьируя значение К до тех пор, пока значение в ячейке С12 не станет близким 10. Получится примерно 34-ый процентиль. При увеличении процентиля в выборку попадает больше табличных значений:

что такое процентиль в психодиагностике. Смотреть фото что такое процентиль в психодиагностике. Смотреть картинку что такое процентиль в психодиагностике. Картинка про что такое процентиль в психодиагностике. Фото что такое процентиль в психодиагностике

Итого, в 80-ый процентиль попадает уже 8 табличных значений из 10, которые меньше или равны 47.2. При этом подчеркнуть результат можно диапазоном процентилей — например, между восьмидесятым и сотым. В этом случае значения будут лежать между 47.2 и 67 (максимальным числом выборки).

Источник

ЛЕКЦИЯ № 18. Психологический диагноз

2. Шкальные оценки

Шкальные оценки — способ оценки результата теста путем установления его места на специальной шкале. Шкала содержит данные о внутригрупповых нормах выполнения данной методики в выборке стандартизации. Так, индивидуальные результаты выполнения заданий (первичные оценки испытуемых) сравниваются с данными в сопоставимой нормативной группе (например, результат, достигнутый учеником, сравнивается с показателями детей того же возраста или года обучения; результат исследования общих способностей взрослого сопоставляется со статистически обработанными показателями репрезентативной выборки лиц в заданных возрастных пределах).

Шкальные оценки в этом смысле имеют четко определенное количественное содержание и могут быть использованы при статистическом анализе. Одной из распространенных в психологической диагностике форм оценки результата теста путем соотнесения с групповыми данными является расчет процентилей.

Процентиль — процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций (см. ранговая корреляция) при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату; 50-й процентиль (PSQ) соответствует медиане (см. меры центральной тенденции) распределения результатов, Р›50 и Р‹50 соответственно представляют ранги результатов выше и ниже среднего уровня результата.

Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате (см. первичные оценки). Ранги Р, и Р100 получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели (например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу Р100, будет составлять 95 правильно решенных заданий). Такая ситуация наблюдается, например, при оценке тестов скорости.

Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу Р7080, может составить 10 баллов, а различие в количестве правильных решений в интервале рангов Р5060 — лишь 1–3 балла.

Вместе с тем процентильные оценки обладают и рядом достоинств. Они легкодоступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.

Процентильные оценки не относятся к типичным шкальным показателям. Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится г-преобразование оценок (см. стандартизация, нормальное распределение). Чтобы определить 2-стандартный показатель, определяют разность между индивидуальным первичным результатом и средним значением для нормальной группы, а затем делят эту разность на а нормативной выборки. Полученная таким образом шкала z имеет среднюю точку М = 0, отрицательные значения обозначают результаты ниже среднего и убывают по мере удаления от нулевой точки; положительные значения обозначают, соответственно, результаты выше среднего. Единица измерения (масштаб) в шкале z равна 1а стандартного (единичного) нормального распределения.

Для преобразования полученного при стандартизации распределения первичных нормативных результатов в стандартную z-шкалу необходимо исследовать вопрос о характере эмпирического распределения и степени его согласованности с нормальным. Поскольку для большинства случаев значения показателей в распределении умещаются в пределах М ± 3σ, единицы измерения простой z-шкалы слишком велики. Для удобства оценивания применяется еще одно преобразование типа z = (x — ‹x›) / σ. Примером такой шкалы могут быть оценки тестовой батареи SAT(СЕЕВ) методики для оценки способности к обучению (см. тесты достижений). Эта r-шкала пересчитана таким образом, что средней точке соответствует значение 500, а σ = 100. Другим аналогичным примером является шкала Векслера для отдельных субтестов (см. шкала измерения интеллекта Векслера, где М = 10, σ = 3).

Наряду с определением места индивидуального результата в стандартном распределении групповых данных введение ШО направлено и на достижение другой важнейшей цели — обеспечение сопоставимости количественных результатов различных тестов, выраженных в стандартных шкалах, возможности их совместных интерпретаций, сведение оценок к единой системе.

В случае, если оба распределения оценок в сравниваемых методиках близки к нормальному, вопрос о сопоставимости оценок решается довольно просто (в любом нормальном распределении интервалам М ± nσ соответствует одинаковая частота случаев). Для обеспечения сопоставимости результатов, принадлежащих к рас-пределениям другой формы, применяются нелинейные преобразования, позволяющие придать распределению форму заданной теоретической кривой. В качестве такой кривой обычно используется нормальное распределение. Как и 160–150 в простом г-преобразовании, нормализованным стандартным показателям можно придать любую желаемую форму. К примеру, умножив такой нормализованный стандартный показатель на 10 и прибавив константу 50, получаем Т-показатель (см. стандартизация, миннесотский многоаспектный личностный опросник).

Примером нелинейно преобразованной в стандартную шкалу является и шкала станайнов (от англ. standart nine — «стандартная девятка»), где оценки принимают значения от 1 до 9, М = 5, σ=2.

Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов (табл. 14).

Источник

Ваш психолог. Работа психолога в школе.

Самое популярное

Занятие. Стандартизация результата и нормы теста
Вводные замечания
Психодиагностические методики являются измерительными инструментами. Для того чтобы измерить какой-либо мерой величину измеряемого, необходимо, чтобы были соблюдены определенные условия (К.М. Гуревич [24]).
Первое условие касается самого измерительного инструмента: он должен иметь на протяжении всего измерения одну и ту же тождественную самой себе меру. Нельзя измерять инструментом, у которого нет такой тождественной самой себе меры (например, если бы на линейке расстояния от одного деления до другого были неодинаковы на разных участках).

Второе условие – необходимо, чтобы то, что измеряется, во всех случаях оставалось одним и тем же, т.е. также было тождественно самому себе.
Как показывает далее К.М. Гуревич, соблюсти эти два условия в психодиагностических исследованиях крайне затруднительно. Вопрос стабильности измеряемых психических характеристик находится в компетенции соответствующих предметных областей психологической науки. В настоящем параграфе будут рассмотрены требования к психодиагностическим методикам, как профессиональным инструментам измерения индивидуально-психологических характеристик. К числу этих требований относятся стандартизация, надёжность и валидность.
Стандартизация – это единообразие процедуры проведения и оценки выполнения теста. Она рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов (рис. 9.1.1).
Стандартизация процедуры проведения обследования подразумевает единообразие инструкций, бланков и других материалов обследования, способов регистрации результатов, условий проведения обследования.
Стандартизация психодиагностической методики

Стандартизация процедуры проведения
Едиообразие инструкций, бланков, тестовых материалов, способов регистрации результатов, условий проведения обследования
Стандартизация оценки выполнения Формирование выборки стандартизации, проведение обследования, проверка нормальности распределения признака, определение шкалы стандартных показателей, разработка методики перевода сырых показателей в стандартную шкалу

Рис. 9.1.1 Составляющие процесса стандартизации психодиагностической методики

При проведении психодиагностического обследования надо соблюдать следующие требования:
– инструкции следует сообщать испытуемым одинаковым образом, лучше письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере;
– ни одному испытуемому не следует давать никаких преимуществ перед другими;
– в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;
– эксперимент с разными группами следует проводить по возможности в одно и то же время дня в сходных условиях;
– временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми.
Стандартизация критериев выполнения теста осуществляется путём её проведения на большой представительной выборке испытуемых, которая ничем не отличатся от той, для которых данная методика предназначена. Такая выборка называется выборкой стандартизации. Она представляет собой меньшую по размеру точную модель генеральной совокупности. Правила формирования выборки стандартизации подробно изложены в учебном пособии «Методы психолого-педагогической оценки» [38].
Стандартизация оценки выполнения применяется в основном для тестов и опросников и включает определение нормативных данных и построение шкалы стандартных показателей.
Нормы – это статистические показатели выборки стандартизации (среднее значение и стандартное отклонение), позволяющие охарактеризовать положение обследованного индивидуума относительно выборки стандартизации. Рассчитанные на основе обследования выборки стандартизации среднее значение (обозначается латинской буквой М или греческой буквой µ – мю) и стандартное отклонение (обозначается греческой буквой σ – сигма) являются основой для разработки шкалы оценок в стандартных показателях, к которым относятся Z-показатели, Т-показатели, стены, станайны.
Z-показатели
Z-показатель – выражение шкальных показателей в единицах стандартного отклонения:

что такое процентиль в психодиагностике. Смотреть фото что такое процентиль в психодиагностике. Смотреть картинку что такое процентиль в психодиагностике. Картинка про что такое процентиль в психодиагностике. Фото что такое процентиль в психодиагностике

Таблица 9.1.1 Нормы теста Равена в процентилях

Источник

Лекция «Психометрические основы диагностики»

Тема «Психометричекие основы диагностики»

Стандартизация и стандартные показатели.

Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована. Стандартизация — это единообразие процедуры проведения и оценки выполнения теста. Рассматривается она в двух планах:

♦ как выработка единых требований к процедуре эксперимента;

♦ как определение единого критерия оценки результатов диагностических испытаний.

Стандартизация процедуры эксперимента подразумевает унифика­цию инструкций, бланков обследования, способов регистрации резуль­татов, условий проведения обследования.

К числу требований, которые необходимо соблюдать при проведе­нии эксперимента, можно, например, отнести такие:

1) инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере;

2) ни одному испытуемому не следует давать никаких преимуществ перед другими;

3) в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;

4) эксперимент с разными группами следует проводить в одинако­вое, по возможности, время дня, в сходных условиях;

5) временные ограничения в выполнении заданий для всех испыту­емых должны быть одинаковыми и т. д.

Обычно авторы методики в руководстве приводят точные и подроб­ные указания по процедуре ее проведения. Формулирование таких указаний составляет основную часть стандартизации новой методи­ки, так как только строгое их соблюдение дает возможность сравнить между собой показатели, полученные разными испытуемыми.

Другим наиболее важным этапом в стандартизации методики явля­ется выбор критерия, по которому следует проводить сравнение ре­зультатов диагностических испытаний, поскольку диагностические методики не имеют заранее определенных стандартов успешности или неудачи в их выполнении.

Так, например, ребенок шести лет, выполняя тест умственного развития, получил балл, равный 117. Хорошо это или плохо? Часто ли такой показатель встречается у детей данного возраста? Количественный результат как таковой ничего не означает. Полученный дошколь­ником балл нельзя интерпретировать как показатель относительно вы­сокого, среднего или низкого развития, так как это развитие выражено в мерах, присущих данной методике, и, таким образом, абсолютного значения полученные результаты иметь не могут. Очевидно, нужно располагать точкой отсчета и какими-то дозированными мерами, что­бы с их помощью оценивать полученные при диагностировании инди­видуальные и групповые данные. Возникает вопрос, что за эту точку отсчета брать?

В традиционном тестировании такая точка добывается статистическим путем — это так называемая статистическая норма.

В общих чертах стандартизация диагностической методики, ориен­тированной на норму, осуществляется путем ее проведения на большой представительной выборке испытуемых, которая ничем не отли­чается от той, для которой данная методика предназначена. На этой группе испытуемых, называемой выборкой стандартизации, разрабатываются нормы, указывающие не только средний уровень выпол­нения, но и его относительную вариативность выше и ниже среднего уровня. В результате можно оценить разные степени успешности или неуспешности в выполнении диагностической пробы. Это позволяет определить положение конкретного испытуемого относительно выборки стандартизации.

Для вычисления статистической нормы психологи-диагносты об­ратились к приемам математической статистики.

Кроме статистической нормы, основой для сравнения, интерпретации результатов диагностических испытаний могут стать и такие показатели, как процентили.

Процентиль — это процентная доля индивидов из выборки стандар­тизации, первичный результат которых ниже данного первичного показателя.

Например, если 28 % людей правильно решат не более 15 задач в арифметическом тесте, то первичному показателю 15 соответствует 28-й про­центиль (Р28). Процентили указывают на относительное положение ин­дивида в выборке стандартизации. Их также можно рассматривать, как ранговые градации, общее число которых равно 100, с той лишь разницей, что при ранжировании принято начинать отсчет сверху, т. е. с луч­шего члена группы, получающего ранг 1. В случае же процентилей от­счет ведется снизу, поэтому чем ниже процентиль, тем хуже позиция индивида.

50-й процентиль (Р50) соответствует медиане — одному из показателей центральной тенденции. Процентили свыше 50 представляют показатели выше среднего, а те, которые лежат ниже 50, — сравнительно низкие показатели. 25-й и 75-й процентили известны также под названием 1-го и 3-го квартилей, поскольку они выделяют нижнюю и верхнюю четверти распределения. Как и медиана, они удобны для описания распределения показателей и сравнения с другими распреде­лениями.

Процентили не следует смешивать с обычными процентными пока­зателями. Последние являются первичными показателями и представляют собой процент правильно выполненных заданий, тогда как процентиль — это производный показатель, указывающий на долю от общего числа членов группы.

Процентильные показатели обладают рядом достоинств, в частности:

♦ их легко рассчитать и понять даже сравнительно неподготовленному человеку;

♦ их применение достаточно универсально и подходит к любому типу тестов.

Выборка стандартизации. При разработке и применении любой точки отсчета следует обращать особое внимание на выборку испыту­емых, на которой проводится стандартизация диагностической мето­дики. В математической статистике принято различать такие понятия, как генеральная совокупность (популяция) и выборка.

Всякая большая совокупность людей, которую хотели бы исследо­вать или относительно которых собираются делать выводы, называет­ся генеральной совокупностью.

Выборкаэто часть или подмножество совокупности. Проводить исследование всей популяции не принято. Обычно из нее выделяют группу людей — выборку стандартизации — которая реально подверга­ется тестированию, и с ее помощью оценивается генеральная совокуп­ность. Чтобы оценки носили достоверный характер, выборка должна быть репрезентативна, представительна рассматриваемой популя­ции, т. е. ее вероятностные свойства должны совпадать или быть близ­кими к свойствам генеральной совокупности.

А. Анастази [10, т. 1] приводится пример формирования репрезентативной выборки при стандартизации шкалы Векслера. Выборка вклю­чала 1700 человек с равным количеством мужчин и женщин. Испытуе­мые в возрасте от 16 до 64 лет были распределены по семи возрастным уровням. При формировании выборки исследователи опирались на дан­ные последней переписи населения США. Учитывалось пропорциональ­ное распределение населения по географическим районам, принадлеж­ность к городскому и сельскому населению, принадлежность к белой или цветной расе, учитывались также уровень образования и профес­сия. На каждом возрастном уровне в выборку были введены один муж­чина и одна женщина, находящиеся в учреждениях для умственно от­сталых.

По мнению А. Анастази, подавляющее большинство диагностиче­ских методик стандартизовано не для столь широких популяций, как многие полагают. Трудно рассчитывать, что по какому-либо тесту имеются адекватные нормы для таких обширных популяций, как, напри­мер, «взрослые американцы-мужчины» или «американские дети 14-лет­него возраста». Выборки, ориентированные на широкие популяции, не всегда репрезентативны и чаще всего бывают смещены в тех или иных отношениях (т. е. некоторые подгруппы популяции могут быть пред­ставлены непропорционально своей численности). Так, если опре­делить популяцию как «14-летние дети», а выборку стандартиза­ции составить из 14-летних школьников, то ее нельзя рассматривать в качестве репрезентативной, поскольку не все 14-летние дети являют­ся школьниками. В этом случае лучше сузить определение популяции (т. е. определить ее как «14-летние школьники»), чем переносить нор­мы, полученные на школьниках, на популяцию 14-летних детей.

Таким образом, одним из способов обеспечения репрезентативно­сти выборки является ограничение популяции. Ограничить популяцию можно по разным признакам: по возрасту, полу, социальному проис­хождению, профессии, социально-экономическому статусу, здоровью и т. д. Такая популяция определяется как специфическая, и стандар­тизация диагностических методик осуществляется на узконаправлен­ных выборках, которые репрезентативны специфической популяции. Создатель диагностической методики должен всегда сообщать, для ка­кой специфической популяции были разработаны нормативные по­казатели.

Отбор испытуемых в выборку стандартизации осуществляется сле­дующим образом:

1) дается определение популяции с выделением в ее структуре пе­ременных, значимых и малозначимых для изучаемого психиче­ского явления (возраст, образование, профессия и т. д.);

2) популяция делится на части в соответствии со значимыми пере­менными;

3) испытуемые отбираются в случайном порядке и пропорциональ­но численности каждой значимой части совокупности. Случай­ный отбор может осуществляться по алфавиту, по таблице слу­чайных чисел или другим способом. Важно, чтобы у всех пред­ставителей популяции были равные шансы попасть в выборку стандартизации. Это условие подразумевает, что каждый выбор не зависит от остальных.

Стандартные показатели. Преимущественное использование в тестах стандартных показателей объясняется их пригодностью во многих отношениях. Такие показатели выражают отклонение индивидуального результата от средней нормы в единицах, пропорциональных стандартному отклонению распределения.

Стандартные показатели могут быть получены как линейным, так и нелинейным преобразованием первичных показателей. Если используется линейное преобразование, то при этом сохраняются соотношения между первичными показателями, поскольку они вычисляются вычитанием из каждого первичного показателя одной и той же величины с последующим делением результата на другую постоянную величину.

На рисунке –кривая нормального распределения

Z = 44+1.

вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стремится подтвердить «Я-концепцию» или фальсифицировать определенный «Я-образ» с заданными свойствами.

Как правило, в ситуациях высокого социального риска «Я-образ» полностью доминирует.

Например, преступник при экспертизе стремится, прежде всего, предстать больными или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонные подчеркивать свои трудности и проблемы клиенты, обратившиеся за помощью к психологу-психотерапевту (чтобы вызвать к себе повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотивация самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе.

Заслуживают внимания также особые формы отказа испытуемого от тестирования: позиционный стиль ответа («соглашательство» или, наоборот, «отрицание»), случайные ответы. Для выявления подобных отказов обычно достаточно довольно простых мер:

— для исключения влияния соглашательства («отрицания») применяются перечни с «прямыми» (ответ «верно» в пользу измеряемого свойства) и «обратными» (ответ «неверно» в пользу измеряемого свойства) пунктами. Кроме того, производится подсчет баланса «подтверждающих» и «отвергающих» ответов: если баланс резко нарушается, то протокол признается бракованным;

— для выявления случайных ответов в большие перечни вводят вопросы-дубли (синонимические перифразы) или прямые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит он применяет случайную тактику. Вводят также и крайне редкие утверждения, с которыми испытуемые, как правило, соглашаются только по ошибке.

Более сложные методы требуются для борьбы с социальной желательностью.

Рассмотрим три наиболее часто используемых варианта.

. Такие пункты должны быть либо полностью исключены из опросника (что редко удается), либо число «положительных» и «отрицательных» должно быть уравновешено.

Подобным образом, могут быть отобраны и пункты для шкалы лжи. В качестве критерия разделения испытуемых на шкале лжи выбирается такая точка, которая позволяет минимизировать ошибки типа «пропуск» (зачисление «лживых» испытуемых в число «правдивых») и ошибки типа «ложная тревога» (зачисление «правдивых» в число «лживых»). Положение критической точки на шкале можно менять в зависимости от баланса цены двух типов ошибок: в некоторых случаях «пропуск» гораздо опаснее, чем «ложная тревога».

Фальсифицирующая инструкция используется также и для исследования степени «скрытности-открытости» формулировок вопросов. Например, испытуемым дается инструкция на симуляцию высокой тревожности по опроснику Тейлор. В этом случае, ответы на многие пункты значимо изменяются.

3. Стратегия «сбалансирования социальной желательности» стала применяться с распространением факторного анализа. Ставиться цель обеспечить дискриминативную валидность теста относительно шкалы «социальной желательности». Это достигается с помощью факторного анализа корреляций между пунктами. Факторный анализ, в применении к одномерному тест-опроснику, как правило, выделяет два фактора: относящийся к самому измеряемому свойству и относящийся к социальной желательности.

Из перечисленных выше трех методов первый относится к отсеву испытуемых и требует введения в перечень вопросов для шкалы «лжи». Методы 2 и 3 позволяют отобрать только такие пункты, которые обеспечивают устранение социальной желательности. Но они, как правило, трансформируют сам конструкт, который обязательно становится ортогональным (независимым) к социальной желательности.

При необходимости диагностики свойств, обязательно коррелированных с желательностью, единственный метод состоит в применении шкал коррекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с социальной желательностью, в ситуациях экспертизы всегда рискованна.

Однако, в ситуациях, когда сам испытуемый заинтересован в точных результатах («ситуация клиента»), психодиагност может пользоваться опросниками, не опасаясь артефакта социальной желательности.

При подготовке особенно значимого психодиагностического обследования, в котором надо принципиально исключить всякую возможность преднамеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы «лжи» еще одним критерием, основанным на использовании «фальсифицирующей» инструкции. Для этого после обычной инструкции той же самой пилотажной выборке психолог дает инструкцию: «А теперь снова выполните задание, но старайтесь описать себя так, чтобы выглядеть максимально благоприятно в глазах большинства других людей». В результате применения такой инструкции психолог получает дополнительную таблицу, содержащую фальсифицированные данные.

В таком случае кроме подсчета очень грубого индекса «желательности» ( ) у психолога возникает возможность поэлементного сравнения ответов испытуемых на один и тот же вопрос в обычной и «фальсифицированной» диагностической ситуации. Очевидно, что недостоверным следует считать вопрос, ответы на который будут изменены в «фальсифицированной» ситуации в определенном систематическом направлении.

Без указанных предосторожностей тест-опросник неизбежно будет давать систематические искажения результатов всякий раз, когда испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы.

Однако применение таких методов требует сложной компьютерной обработки, а, следовательно, не всегда доступны.

Технология создания и адаптации методик.

По существу любая реальная ситуация использования теста не является ситуацией только «конструирования» или «применения». Можно без преувеличения сказать, что существует континуум между крайними полюсами:

и каждая ситуация до определенной ступени удалена от обоих полюсов. Трудно назвать такой случай, когда бы конструирование совершенно нового теста начиналось «с нуля», «на пустом месте». Также трудно найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно исследованную нормативную ситуацию применения готового теста.

Однако на практике, все многообразие ситуаций, всю комбинаторику независимых параметров психологи, как правило, пытаются свести к двум-трем типовым ситуациям [15].

1. Ситуация применения. Тест кем-то разработан (возможно, в других социокультурных условиях), известны тестовые нормы, полученные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным).

3. Ситуация создания. Есть концепция психического свойства, но нет «подходящей» процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Необходимо разработать измерительную процедуру, проверить ее надежность, валидность, построить тестовые нормы.

Но уже к середине 80-х годов стала совершенно очевидна несостоятельность такой упрощенной системы представлений.

Прежде всего остановимся на вопросах адаптации «переводных» тестов. Данный путь быстрого пополнения репертуара методик кажется многим психологам наиболее экономичным, кратчайшим к надежной и валидной психодиагностике.

Однако, если при этом адаптация сводится только к построению нормативного распределения тестовых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теоретическая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без изменений (ведь для любой, в том числе и для невалидной и ненадежной методики, можно получить распределение).

Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психических свойств (таких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, т. е. структурно-динамические характеристики психической деятельности), причем с использованием объективных процедур (психофизиологическая регистрация, тесты с «физическими» критериями успеха и т. п.).

Требуется серьезная эмпирическая работа по проверке надежности и валидности в новых социокультурных условиях, работа, фактически соответствующая по своему объему созданию оригинальной методики.

С этой точки зрения заимствование зарубежных диагностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Рассмотрим в качестве примера необходимые этапы эмпирико-статистической работы при адаптации многомерного переводного тест-опросника.

1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ совершенно необходим, если в зарубежной методике он применялся в качестве средства самого конструирования методики. Этот анализ призван показать, что некое (еще неясно какое именно) общее диагностическое свойство, «лежащее на пересечении всех эмпирических индикаторов», действительно существует.

Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например к тест-опросникам Айзенка EPI и 16РF Кеттелла. В то время, как к опроснику «локус контроля» или ко многим основным клиническим шкалам MМPI требование внутренней согласованности применять необязательно, поскольку пункты в эти шкалы подбирались по внешнему критерию и не связаны в один фактор. Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам.

2. Проверка устойчивости к перетестированию. Совершенно необходима при диагностике свойств, по отношению к которым теоретически ожидается инвариантность во времени.

3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался изначально как критериально-ориентированный, т. е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана для сокращенной модифицированной версии MMPI коллективом Ф. Б. Березина.

4. Рестандартизация тестовых норм. До недавнего времени только этот этап работы по адаптации тестов признавался всеми психологами как необходимый. Но и в этом случае далеко не всегда воспроизводилась необходимая статистическая работа по проверке устойчивости полученного распределения тестовых баллов к расщеплению выборки.

Пять указанных этапов адаптации позволяет убедиться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы конструированию оригинальных методик.

Несколько другие задачи ставит перед психологом ситуация «внутрикультурного переноса» теста на новую популяцию, отличающуюся от выборки стандартизации половозрастными или профессионально-культурными особенностями. В этом случае необходимо:

1. Проверить валидность методики, если методика чувствительна по своему содержанию к профессиональной или региональной специфике (могут ли отвечать пенсионеры, или школьники, или жители отдаленных регионов на вопросы, подразумевающие типичные ситуации из жизни студента, обучающегося в крупном городе европейской части?). Для того надо выбрать по возможности максимально экономичную процедуру проверки валидности. Размеры выборки в эксперименте по проверке валидности должны быть таковы, чтобы можно было бы надеяться на получение статистических значимых связей между тестовым показателем и критерием валидности (это, как правило, не менее 30 испытуемых).

В отсутствие доступного внешнего критерия необходимо прибегнуть к проверке внутренней валидности методики.

2. Проверить соответствие тестовых норм. Только после позитивного результата в проверке валидности целесообразно расширять тестовых баллов.

Квантили этого распределения необходимо сравнить с квантилями нормативного распределения: если расхождения оказываются пренебрежимыми (например, не превышают ошибки измерения), то можно принять вывод о приложимости к данной популяции универсальных тестовых норм. Однако на практике чаще возникают значимые отличия.

В этом случае психолог должен построить так называемые «частные» тестовые нормы.

Итак, при создании нового теста психолог должен придер­живаться определенного алгоритма действий. Рассмотрим коротко его суть. Алгоритм создания нового теста сводится к следующим основным этапам:

— формирование информационной базы исследования;

— конструирование интегральных показателей;

— классификация испытуемых на однородные группы.

При этом наиболее сложной и трудно формализуемой час­тью этого этапа является выявление системы исходных призна­ков, т. к. предмет измерения изначально определяется, как пра­вило, в довольно общем виде. Как отмечает Л. Т. Ямпольский, наилучшим основанием для содержательной разработки предмета тестирования является наличие хорошо развитой пси­хологической теории (что в психологии бывает довольно редко). В связи с этим, конечным результатом содержательного анализа должно быть четкое вербальное определение анализи­руемого конструкта и расчленение его на составные части.

После этого переходят к поиску системы признаков, реле­вантно отражающих основное содержание конструкта. Систе­ма признаков должна удовлетворять следующим общим требо­ваниям:

На основе этих требований должен быть составлен список заданий (пунктов) и создан первоначальный вариант теста.

Поскольку качество отдельных заданий (вопросов, утверждений) является определяющим для всего опросника, рассмотрим трудности, возникающие при формулировании заданий, а также преимущества различных типов заданий.

При разработке заданий для личностных опросников необходимо учитывать следующие проблемы, которые, если их не обойти, неизбежно приведут к низкой валидности тестов.

1. Установка на согласие. Это тенденция испытуемого соглашаться с утверждениями или отвечать на вопросы «да» независимо от их содержания. Чаще всего проявляется, когда утверждения (вопросы) неоднозначны и неопределенны.

2. Установка на социально одобряемые ответы. Это тенденция испытуемых отвечать на вопросы теста так, чтобы выглядеть «социально положительным»: если возможен «социально желательный» ответ, то весьма вероятно, что испытуемые будут его давать. Эта установка оказывает, в частности, влияние на результаты теста ММРI.

3. Установка на неопределенные или средние ответы. Если в опроснике представлена средняя категория ответов, отражающая нерешительность или неуверенность в ответе (например, «не уверен», «не знаю», или «затрудняюсь ответить»), то многие испытуемые склонны к ней прибегать, как к безопасному компромиссу. Это приводит к снижению валидности заданий, поскольку большинство методов анализа вопросов основывается на крайних значениях показателей.

4. Установка на «крайние» (расположенные по краям шкалы) ответы. Эта установка может проявляться при использовании многоэлементной рейтинговой шкалы. Некоторые испытуемые, независимо от содержания вопросов, предпочитают выбирать крайние ответы.

5. Выборка из генеральной совокупности вопросов. В тестах интеллекта и специальных способностей относительно легко убедиться в том, что задания принадлежат или с высокой степенью вероятности выглядят принадлежащими к подразумеваемой для них генеральной совокупности. Лингвистические задания нелегко перепутать с математическими или какими-либо другими. Однако, в области особенностей диагностики личности и темперамента все гораздо сложнее.

В самом деле, иногда даже опытные разработчики вопросов обнаруживают, что вопросы нагружены не теми факторами, для выявления которых они были созданы или, что вопросы вообще не нагружены ни одним из факторов. Эта проблема с точки зрения классической теории тестов состоит в трудности определения конкретной выборочной совокупности вопросов. В результате возникает проблема подбора адекватной выборки из выборочной совокупности вопросов или утверждений для теста, а без этого тест не может быть валидным.

6. Выборка из генеральной совокупности испытуемых. Известно [8], что в личностных тестах труднее обеспечить адекватность выборки из выборочной совокупности, чем в тестах способностей. При использовании тестов способностей обычно известна вполне определенная категория лиц (популяция), для которой данный тест предназначен, и таким образом, по крайней мере, в принципе, можно эффективно подбирать выборки.

В личностных тестах, в отличие от тестов, разрабатывающихся для испытуемых с той или иной патологией, в идеале нужны выборки из общей популяции (т.е. всего населения страны), в которой встречаются все возможные показатели. Такие выборки, как показано, должны быть большими, и их обычно трудно получить.

Таковы основные сложности, возникающие при конструировании личностных опросников, и следует отчетливо их себе представлять, прежде чем приступать к формулированию вопросов или утверждений. Две последние проблемы, хотя они и являются определяющими, выходят на первый план уже после того, как подобраны задания теста.

Рассмотрим далее основные принципы формулирования вопросов (утверждений) для личностных опросников. Для тестов личности имеет большое значение то, чтобы ответы на вопросы могли быть объективно и с высокой надежностью оценены. Прежде всего, этого необходимо добиваться путем разработки формы вопросов. Ниже приведены формы вопросов, используемых опросниках, которые оказались наиболее эффективными на практике.

1. Вопросы с ответом типа «да-нет». Такие вопросы легко формулировать, они понятны испытуемым и ответы на них даются быстро. Такова, например, форма вопросов личностных тестов Айзенка. Типичный дихотомический вопрос: «Вам нравятся шумные компании?»

Трудность с такими вопросами состоит в том, что эта «средняя» категория очень привлекательна для испытуемых, однако редко бывает информативной. Практика показала, что дихотомические вопросы более предпочтительны, поскольку они заставляют преодолевать нежелание делать выбор.

3. Альтернативные задания (с ответами типа «правда-ложь»). Эти задания состоят из утверждений (часто от первого лица), которые испытуемые должны отметить как верные или неверные для них. Примером альтернативного задания является: «Я ненавижу втискиваться в переполненный автобус». Это форма утверждений, используемая в ММРI. По существу, она ненамного отличается от дихотомических вопросов, хотя формулирование их как альтернативных утверждений, а не как дихотомических вопросов, может до некоторой степени повлиять на языковую представленность задания.

7. Трихотомические задания с выбором. Это варианты типа (6), позволяющие вложить в лаконичную форму задания почти любую мысль. В них используются три завершающих предложение фразы, одну из которых испытуемый должен выбрать. Вот типичный пример: «Когда мне нечего делать, я могу: (а) позвонить другу, чтобы поболтать; (б) заняться разгадыванием трудного кроссворда; (в) пойти на джазовый концерт».

Удовлетворение этим требованиям обеспечивает содержа­тельную валидность теста. По другому говоря, содержательная валидность должна рассматриваться лишь как начальный этап в конструировании теста.

Конструирование интегральных показателей (шкал). На этом этапе решаются две основных подзадачи:

— оценка того, насколько удачно исходная система при­знаков описывает содержание измеряемого свойства;

— на базе отобранных признаков строится обобщающий показатель.

Обобщающий (интегральный) показатель представляет из себя, по сути, «шкалу», «ось» или «фактор», который содержит в себе весь континуум многообразных оценок по всем пунктам теста.

Этапы конструирования теста

1. Определение количества заданий.

Прежде чем приступать к созданию теста, необходимо четко знать, для чего он нужен. Ясный ответ на этот вопрос — необходимое условие для работы. Поэтому первым шагом будет формулирование цели будущего теста. После этого следует обратиться к разработке спецификации будущего теста. Наиболее удобно сделать это в виде таблицы, в которой по горизонтали будут располагаться содержательные области, которые предполагается измерять, а по вертикали — их манифеста ции, или пути, по которым содержательные области могут проявляться.

Далее необходимо определить, сколько заданий, например вопросов, должно быть создано для каждой из ячеек. При решении этой задачи следует руководствоваться тем, насколько важным представляется исследователю измерение одного из параметров сравнительно с другим или другими.

После того как определен процентный вес каждой из ячеек решетки и установ- лено общее количество заданий для пилотажной версии теста, нетрудно подсчи- тать, сколько заданий должно быть разработано для каждой ячейки.

Прежде всего нужно указать на то, что в каждом задании может быть задан толь ко один вопрос или сформулировано одно утверждение. Нельзя допускать появления заданий, в которых присутствуют формулировки типа: «для этого человека и других людей», «как и другие» и т. п. Каждое задание (вопрос) должны быть сформулированы предельно ясно и просто. Необходимо избегать двусмысленных формулировок и придерживаться, насколько это возможно, наиболее простых вариантов ответов. В то же время необходимо стремиться к тому, чтобы обследуе- мые не могли догадаться о том, для измерения какой черты предназначено то или иное задание. В противном случае ответы будут отражать их точку зрения на вы- раженность у себя этой черты, а не реальное положение дел.

Задания должны отражать конкретные, а не общие аспекты изучаемой области поведения. Например, вместо задания «Нравится ли вам спорт?» лучше использовать более конкретный вопрос: «Вы регулярно играете в какую-нибудь спортивную игру?».

Везде, где только возможно, следует избегать употребления таких слов, как «часто», «редко» и т. п. Иначе говоря, в формулировке заданий нужно очень осторожно прибегать к словам, указывающим на частоту действий. То, что одним испытуемым интерпретируется как «часто», для другого совсем не так. Примером может служить вопрос «Часто ли вы употребляете спиртные напитки?», ответ на этот вопрос не отражает реального положения дел, а характеризует субъективное мнение обследуемого (разумеется, в ряде случаев именно это мнение и интересует исследователя!).Также следует избегать терминов, выражающих чувства. Лучше представить задание в контексте поведения. Например, задание «Нравится ли вам чтение художественной литературы» лучше заменить на «Читаете ли вы художественную литературу постоянно?».

Очень важно, чтобы любой из предлагаемых вариантов ответа воспринимался испытуемым как возможный, вероятный. Ответ, воспринимаемый обследуемым как неправильный, будет иметь малую вероятность выбора.

3. Оформление теста

В любом опроснике должен быть представлен блок основной информации, который включает его название, а также вопросы, касающиеся имени, пола, возраста, образования и некоторых других необходимых для исследователя данных. Обязательно указывается дата заполнения опросника.

Инструкция должна быть ясной, доступной для понимания. В ней должно быть указано, как выбирать ответ и каким образом отмечать его в опроснике. Здесь же содержится дополнительная информация, которую разработчик считает необходимым сообщить обследуемому. Например, «отвечайте так быстро, насколько это возможно» или «отвечайте на каждый вопрос искренне, это очень важно для того, чтобы мы имели возможность оказать вам необходимую помощь». Следует выделить ту информацию, которая может способствовать эффективной работе испытуемого, например о соблюдении конфиденциальности.

Для компоновки текста опросника следует руководствоваться такими реко мендациями.

1. Нумеруется каждое задание.

2. Каждая строка на странице должна быть короткой и содержать не более 10-12 слов.

3. Все задания располагаются по прямой вертикальной полосе сверху вниз в левом углу страницы.

. Варианты ответов должны быть представлены так, чтобы получилась пря- мая вертикальная полоса сверху вниз в правом углу страницы. Необходимо обеспечить ясную визуальную связь между каждым заданием и вариантами ответа на него. Это может быть сделано с помощью введения пунктир ной линии от колонки заданий к их вариантам ответов.

5. Каждое задание нужно отделить друг от друга, лучше это сделать, исполь- зуя свободное пространство, а не горизонтальную линию.

6. Если используется более чем один тип заданий, одинаковые задания группируются вместе. Каждый тип заданий требует разных инструкций и своих вариантов ответов.

7. Опросник печатается так, чтобы он имел эстетически привлекательный вид.

Современные компьютеры позволяют сравнительно легко добиться опти- мального варианта текста. Дизайн опросника может способствовать воспри- ятию его как формального документа или приближать к игре (особенности шрифта, цвет бумаги и расположение заданий).

4. Пилотажное исследование

Проведение пилотажного исследования предполагает выполнение заданий теста лицами, которые имеют сходные особенности с теми, для обследования которых он предназначается. Анализ полученных данных поможет отобрать наилучшие задания для окончательной версии опросника.

Пилотажную версию опросника следует предъявить как можно большему количеству испытуемых. Минимальное количество респондентов, которое требуется для пилотажного исследования, должно быть в два раза больше, чем количество заданий. Если невозможно получить такое количество испытуемых, лучше все-таки привлечь к исследованию меньшее количество людей, чем вообще отказаться от проведения пи- лотажной стадии исследования.

Анализ заданий по результатам, полученным в пилотажном исследовании, имеет своей целью отбор наилучших заданий для окончательной версии опросника и включает в себя определение доли ответивших правильно (в соответствии с ключом) и дискриминантности каждого задания.

Следующим шагом будет вычисление показателя, определяющего долю испытуемых, ответивших в соответствии с «ключом» опросника или индекса эффективности задания1. Этот показатель подсчитывается делением количества обследуемых, давших правильный (так называемый «ключевой») ответ, на их общее количество.

В идеале этот индекс для каждого задания должен располагаться в интервале от 0,25 до 0,75, приближаясь в среднем к 0,5 для всего опросника.

6. Определение надежности, валидности теста.

7. Определение стандартных нормативных показателей теста.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *