что такое надежность теста
Что такое надежность теста
Как можно описать надежный тест? Надежный тест измеряет некое качество, делает это устойчиво, относительно времени, позволяет сравнивать результаты испытуемых, протестированных в разное время, в разном месте, в разном состоянии.
Вариабельность измеряемого признака (вариативность как свойство психологического измерения) и многомерность, системность и сложность предмета психологии также ставят под сомнение любое измерение в психологии. Для повышения качества психологического измерения в психометрике используется такой показатель как валидность.
На результаты исследования действуют две группы факторов: (1)изменчивость, присущей самому измеряемому свойству, (2) нестабильность измерительной процедуры.
Свойства надежности могут изменяться при изменении:
1. условия проведения обследования,
2. характера заданий,
3. степени сложности заданий,
4. психологического состояния испытуемого.
Ретестовая надежность – характеристика надежности метода психодиагностики путем повторного обследования с помощью одного и того же теста. Надежность вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте.
Алгоритм вычисления ретестовой надежности:
1. первичное тестирование на выборке (при N ≥ 30);
2. повторное тестирование через 5 – 6 месяцев на той же самой выборке;
3. вычисление коэффициента корреляции между первичным и повторным тестированием.
Коэффициент надежности rt соответствует коэффициенту корреляции между результатами первичного и повторного обследований.
Ретестовая надежность пригодна для ограниченного числа методик. Это: 1) Сенсомоторные пробы, 2) Тесты скорости, 3) Тесты, имеющие большое количество пунктов (ММ PI ). Одним из «минусов» процедуры определения ретестовой надежности является «эффект тренировки», который безусловно снижает достовенность надежности теста.
Для порядковых шкал в качестве меры устойчивости к повторному тестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.
Еще одним достаточно популярным видом надежности является надежность параллельных форм. Параллельные (или взаимозаменяемые, или сопоставимые) формы:
· параллельные или взаимозаменяемые (снабженные таблицами эквивалентности);
· уравненные (попарно уравненные по структуре и содержанию задания);
· эквивалентные (результаты с близкими статистическими характеристиками).
Надежность параллельных форм – характеристика надежности методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных. В практике встречается два алгоритма вычисления надежности параллельных форм.
Первый алгоритм определения надежности параллельных форм:
1. тестирование группы при помощи формы А теста;
2. тестирование группы при помощи формы Б теста (или сразу, или через определенное время);
3. вычисление коэффициента корреляции между результатами тестирования разными формами.
Второй алгоритм вычисления надежности параллельных форм:
1. разделение всех испытуемых на две группы (первая и вторая);
2. тестирование первой группы при помощи формы А теста;
3. тестирование второй группы при помощи формы Б теста;
4. тестирование первой группы при помощи формы Б теста (или сразу, или через определенное время);
5. тестирование второй группы при помощи формы А теста (или сразу, или через определенное время);
6. вычисление коэффициента корреляции между результатами первичного и вторичного исследований.
Надежность частей теста достаточно популярный и просто-просчитываемый вид надежности. Надежность частей теста – характеристика надежности методики путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.
Основным методом вычисления надежности частей теста является расщепление – выполнение испытуемым двух равноценных частей теста. Для оценки надежности методом расщепления выбираются две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий достигается одним из способов:
1) распределение заданий на четные и нечетные (в том случае, если задания строго ранжированы по степени субъективной трудности).
2) разделение пунктов по принципу близости или равенства значений индексов трудности (такой принцип пригоден для тестов достижений, в которых обязателен ответ на все пункты).
3) разделение задач по времени решения каждой из частей (для тестов скорости).
Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Расщепление возможно на 3, 4, 5 и более частей. В предельном случае число частей равно числу пунктов.
1. провести однократное тестирование на выборке (при N ≥ 30);
2. расщепить тест (используя один из вышеописанных способов), например на четные – нечетные задания;
3. посчитать коэффициент корреляции между выполнением первой и второй половины теста;
4. для перехода к целой форме вычислить надежность целого теста (или формула Спирмена-Брауна, или формулу Рюлона).
Алгоритм вычисления надежности отдельных заданий теста:
1. провести однократное тестирование на выборке (при N ≥ 30);
2. используя результаты выполнения каждого задания, подсчитать коэффициент Кьюдера-Ричардсона (для заданий «1-0») или коэффициент Кронбаха (для более дифференцированных заданий);
Коэффициент Кьюдера-Ричардсона используется для заданий типа «да-нет», «решил – не решил», «верно-неверно».
Надежность субъективных оценок (или экспертная надежность) – характеристика надежности методики путем анализа устойчивости-согласованности экспертных оценок.
Алгоритм вычисления экспертной надежности:
Сравнительные методы установления надежности
Необходимость повторного тестирования
Достаточное число форм
Источники ошибки индекса надежности
Запоминание, тренировка, научение, длина интервала.
Запоминание, тренировка, научение, недостаточная эквивалентность форм
Частей теста (методом расщепления)
Неоднородность содержания, число заданий в тесте
Число заданий в тесте неоднородность содержания,
Надежность психологического теста
Содержание
Надёжность как устойчивость
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
Надёжность как внутренняя согласованность
Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.
Для проверки внутренней согласованности применяются:
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
α Кронбаха определяется как
,
См. также
Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.
Надежность и валидность
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.
Литература
Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.
Надежность и валидность тестов
В любом эмпирическом исследовании по психологии используются психологические тесты. Часто от студентов требуют указывать данные об их надежности и валидности.
Надежность психологических тестов
В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?
Первый способ проверки надежности психологического теста – анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.
Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.
Недостатки ретестовой проверки надежности психологического теста.
1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.
2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.
Второй способ проверки надежности психологического теста – анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.
Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.
Итак, надежность психологического теста – это характеристика его формальной пригодности для диагностики психологических показателей. Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты. Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель – валидность психологического теста.
Валидность психологических тестов
Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.
Можно выделить два основных способа определения валидности психологических тестов.
Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:
Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.
Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.
Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.
Соотношение надежности и валидности психологических тестов
Надежность теста отражает его качество как метода диагностики, с точки зрения формальных показателей. Без учета содержательного анализа результатов.
Валидность оценивает именно содержательные результаты теста. Насколько они соответствуют реальным психологическим феноменам.
Надежный тест может не быть валидным. Например, тест инициативности может показывать высокую ретестовую надежность и согласованность частей. Однако, с содержательной точки зрения, результаты теста отражают не столько инициативность, сколько силу воли. То есть, надежность данного теста высокая, а валидность низкая.
В практике психологического тестирования надежность тестов с помощью ретеста. Валидность психологических тестов, как правило, проверяется с помощью анализа взаимосвязей с показателями других тестов, измеряющих аналогичные или схожие психологические показатели.
Примеры заключений о надежности и валидности психологически тестов
Тест смысложизненных ориентаций (СЖО)
Надежность теста СЖО проверялась с помощью ретестирования с интервалом в 2 недели (испытуемые — 76 студентов МГУ). Результаты по тесту оказались устойчивы на уровне значимости 5% (р
Автором теста СЖО, Д.А. Леотьевым, была проведена проверка конструктной валидности СЖО. Для этого была сформирована выборка, включавшая студентов московских ВУЗов общей численностью 24 человека (мужчин и женщин).
Было проведено тестирование испытуемых по тестам: СЖО, УСК (уровень субъективного контроля) и САТ (тест на уровень самоакутализации). Далее был проведен корреляционный анализ показателей СЖО с показателями тестов УСК и САТ.
Все шесть показателей теста СЖО значимо положительно коррелируют с общей интернальностью и с интернальностью в области достижений, а также (кроме третьей субшкалы) — с интернальностью в области семейных отношений. Отмечены также значимые корреляции пятой субшкалы СЖО с интернальностью в производственной сфере и по отношению к здоровью-болезни.
Показатели теста СЖО положительно значимо коррелируют со следующими шкалами теста САТ: шкалой опоры и познавательных потребностей — все шесть показателей; шкалами компетентности во времени, самоуважения и представления о природе человека — все, кроме первой субшкалы; шкалой ценностных ориентации — все, кроме общего показателя, и шкалой спонтанности — третья, четвертая и пятая субшкалы. С остальными шкалами CAT значимых корреляций обнаружено не было.
Достаточно высокий уровень взаимосвязи показателей теста смысложизненных ориентаций (СЖО) с показателями интернальности (тест УСК) и показателями самоакутализации (тест САТ) позволяет говорить о конструктной валидности теста СЖО.
Леонтьев Д.А. Тест смысложизненных ориентаций (СЖО). 2-е изд. М.: Смысл, 2000, 18 с.
Методика Ш. Шварца для изучения ценностей личности
Методика Ш. Шварца для изучения ценностей личности была адаптирована в России В.Н. Карандашевым.
Согласно автору русскоязычной адаптации валидность и надежность опросника Шварца обеспечивается:
— тем фактом, что в основе данной психодиагностической методики лежит четкая и теоретически обоснованная концепция ее автора, содержащая операционализированные характеристики ценностей;
— тем, что что при разработке оригинальной версии опросника использовались данные исследований по 54 странам.
Методика «Уровень соотношения Ценности и Доступности в различных жизненных сферах» (УСЦД) (Е.Б.Фанталова)
В методике Е.Б. Фанталовой «Уровень соотношения Ценности и Доступности в различных жизненных сферах» используется список из 12 ценностей, взятых из списка терминальных ценностей методики М. Рокича.
Таким образом, надежность и валидность методики Е.Б. Фанталовой определяется надежностью и валидностью списка ценностей М. Рокича.
Надежность теста ценностных ориентаций М.Рокича проверялась автором через устойчивость ценностной структуры к ретестированию через временные интервалы от 3 недель до 14-16 месяцев на выборках студентов колледжей. Для отдельных ценностей при ретестировании с интервалом 3-7 недель показатель устойчивости варьируется от 0,51 до 0,88 (терминальные ценности) и от 0,45 до 0,70 (инструментальные ценности). Для русскоязычного варианта методики при ретестировании с интервалом в 2 недели были получены средние показатели надежности 0,82 (для терминальных ценностей) и 0,79 (для инструментальных).
О валидности методики ценностных ориентаций М. Рокича (а, следовательно, и методики Е.Б. Фанталовой) косвенно свидетельствуют результаты, полученные при обследовании различных социальных групп. Различия в оценках одних и тех же ценностей мужчинами и женщинами достигают статистически значимых пределов для 12 из 18 терминальных ценностей и для 8 инструментальных.
Фанталова Е.Б. Об одном методическом подходе к исследованию мотивации и внутренних конфликтов // Психологический журнал, т. 13, 1992, N 1. С. 107-117.
Методика «Свободный выбор ценностей» Фанталовой Е.Б.
Методика «Свободный выбор ценностей» является составной частью ценностно-ориентированной системы автора «Диагностика внутреннего конфликта» (ДВК).
В данной методике Е.Б. Фанталова расширила список ценностей от 12 до 72. При этом надежность данной ценностной структуры и ее валидность автором не проверялась.
Фанталова Е.Б. Диагностика и психотерапия внутреннего конфликта. Самара, 2001.
Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты). Заказать
надежность теста
Полезное
Смотреть что такое «надежность теста» в других словарях:
НАДЕЖНОСТЬ ТЕСТА — один из критериев качества теста (см. Тестирование). Чем больше надежность теста, тем свободнее он от погрешностей измерения. При одном из подходов надежность теста рассматривается как устойчивость (стабильность) результатов при повторном… … Профессиональное образование. Словарь
НАДЕЖНОСТЬ ТЕСТА — – один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Н. т., тем относительно свободнее он от погрешностей измерения. При одном из подходов Н. т. рассматривается как устойчивость (стабильность)… … Энциклопедический словарь по психологии и педагогике
НАДЕЖНОСТЬ ТЕСТА — один из критериев качества теста, относящийся к точности психологических измерений, а также к устойчивости результатов теста к действию посторонних случайных факторов … Словарь по профориентации и психологической поддержке
надежность — одна из важнейших характеристик методик и тестов психодиагностических один из критериев их качества, относимый к точности измерений психологических. Отражает точность измерения психологического и устойчивость результатов к действию посторонних… … Большая психологическая энциклопедия
НАДЕЖНОСТЬ ПУНКТОВ — Надежность теста, определяемая степенью, в которой пункты теста измеряют одни и те же конструкты. Также называется надежностью шкал … Толковый словарь по психологии
надежность измерения — Категория. Характеристика экспериментального исследования. Специфика. Воспроизводимость результатов измерения в аналогичных условиях, количественно выражаемая с помощью корреляции результатов начальных и повторных измерений. Зависит от… … Большая психологическая энциклопедия
Надежность психологического теста — Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности надёжность как устойчивость и надёжность как внутреннюю согласованность. Содержание 1 Надёжность как… … Википедия
НАДЕЖНОСТЬ, ПОЛОВИННАЯ — Общее название для нескольких методов определения надежности теста посредством оценки общей внутренней согласованности теста. Этот метод логически подобен процедуре эквивалентных форм (см. надежность альтернативных форм); один тест разделяется на … Толковый словарь по психологии
НАДЕЖНОСТЬ — одна из важнейших характеристик психодиагностических методик и тестов. Отражает точность психологического измерения и устойчивость результатов к действию посторонних факторов (см. теста надежность) [47, c. 170; 66, c. 207; 67, c. 229; 80, c. 325; … Современный образовательный процесс: основные понятия и термины
Надежность — (Reliability). Измерение постоянства (стабильности) теста (или другого метода оценки). Постоянство оценок при повторном тестировании одной и той же группы людей называется ретестовой надежностью. Постоянство оценок по пунктам теста называется… … Теории личности: глоссарий
Надёжность психологического теста
Надёжность как устойчивость
Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
Надёжность как внутренняя согласованность
Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.
Для проверки внутренней согласованности применяются:
Метод расщепления (Split-half reliability)
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
Метод эквивалентных бланков
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)
Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
Помимо надежности тестов, есть также надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.
Надежность и валидность
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.