prosdo.ru
добавить свой файл
1 ... 2 3 4 5 6

Оценка надежности критериально-ориентированного теста.
Рассмотренные выше методы определения надежности подходят только для оценки нормативно-ориентированных тестов. По мнению многих тестологов, эти методы нежелательно использовать для вычисления надежности критериально-ориентированного теста, так как дисперсия тестовых баллов в критериально-ориентированном тесте небольшая (здесь не нужна большая дифференциация баллов испытуемых), а соответственно и корреляционная оценка надежности будет низкой.

Поэтому предлагается другая методика оценки надежности. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию.

Практически это выглядит следующим образом. Группа испытуемых выполняет два идентичных теста или два теста объединяются в один при этом вопросы перемежаются: (1 вариант 1 вопрос, 2 вариант 1 вопрос, 1 вариант 2 вопрос, 2 вариант 2 вопрос и т.д.). По итогам тестирования испытуемые делятся на две группы: получившие зачет и не получившие зачет по двум тестам (по частям расщепленного теста). Далее проводится сравнение результатов тестирования по двум вариантам или, во втором случае, по вариантам расщепленного теста. По результатам теста составляется таблица сопряжения.

Таблица сопряжения результатов критериально-ориентарованного теста.









Тест А







Незачет

Зачет

Тест В


Незачет


А


В

Зачет


С


D


А, B, C, D - доли испытуемых, получивших «зачет» или «незачет» по результатам двух тестов. Каждая доля определяется как отношение числа испытуемых, попавших в подгруппы (A, B, C, D), к общему количеству испытуемых.

Соответственно A + B + C + D = 1

Большие доли A и D свидетельствуют о постоянстве результатов, т.е. если по тесту А получен «зачет/незачет», то и по тесту В тоже получен «зачет/незачет», соответственно можно говорить высокой надежности теста.

Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью фи-коэффициента корреляции.



Вычисляется также каппа-коэффициент как показатель критериально-ориентированного теста по формуле

k = (P - Pc)/(1 - Pc),

где P = A + D - доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc - вероятность случайного принятия согласованного решения.

Pc вычисляется по формуле

Pc = (c + d)(d + b) + (a + b)(c + a)

Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять фи- и каппа-коэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.
Способы повышения надежности теста.

  1. Увеличение количества заданий теста. Согласно классической теории тестов наблюдаемый балл состоит из истинного балла и ошибочной компоненты. Теоретически, чтобы уменьшить ошибку, надо дать как можно больше заданий. Существуют специальные методики определения оптимальной длины теста для достижения необходимой надежности. Но на практике не всегда возможно и целесообразно удлинение теста.


  2. Проанализировать тестовые задания с точки зрения соответствия формы и содержания тестовой теории. Удалить неудачные задания, подкорректировать задания с некоторыми неточностями.

  3. Применение методов, учитывающих вероятность угадывания в заданиях закрытого типа.

Индивидуальный балл испытуемого при выполнении заданий закрытого типа при дихотомической оценке (1/0) есть сумма правильных ответов. В заданиях с выбором ответов индивидуальный балл испытуемых искажается эффектом случайного угадывания ответов. Поэтому если мы хотим минимизировать эффект угадывания, то можно использовать следующую формулу:



где - скорректированный индивидуальный балл i-го испытуемого, Xi - количество правильных ответов, Wi - количество неверных ответов, L - количество вариантов ответов в задании.

При этом балл сильного испытуемого уменьшится в результате коррекции незначительно, балл слабого испытуемого уменьшится гораздо сильнее, что вполне логично, поскольку, например, слабые испытуемые чаще прибегают к попытке угадать верный ответ.

Формула коррекции на возможную догадку для заданий с выбором одного верного ответа из четырех предложенных будет иметь следующий вид:

.

Первый испытуемый ответил верно на 51 задание и неверно на 9 заданий из возможных 60 заданий, то есть X1 = 51, W1 = 9.

Тогда его скорректированный балл баллов, то есть коррекционный балл составил всего 3 единицы.

Второй испытуемый ответил верно на 24 задания и с 36 заданиями он не справился, тогда X2 = 24, W2 = 36.


Скорректированный балл баллов.

Здесь коррекционный балл составил 12 единиц.

Формула коррекции используется нечасто, многие специалисты в области разработки тестов считают, что эффектом угадывания можно пренебречь, если тест имеет достаточно большое количество заданий и не менее 4 – 5 ответов к заданиям в тесте.

Для повышения надежности вопросников часто к основному пе­речню вопросов добавляют группу вопросов, позволяющих оценить ис­кренность людей при ответе на основные вопросы. Ниже приведены воп­росы, входящие в «Шкалу лжи» детского опросника для выявления двух
свойств темперамента: экстраверсии — интроверсии и нейротизма (эмоциональной нестабильности) (См.: Ратанова Т.А., Шляхта Н.Ф. Методы изучения психодиагностики личности: Учеб. пособие. – 2-е изд. – М., 2000. – С. 114-117).

Бываешь ли ты иногда сердитым, раздражительным, злишься?

Всегда ли ты делаешь так, как тебе говорят?

Ты когда-нибудь нарушал правила поведения в школе?

Тебе можно доверять любую тайну?

Ты когда-нибудь говорил неправду?

Ты всегда сначала делаешь уроки, а играешь уже потом?

Всегда ли ты выполняешь просьбы родных о помощи по хозяйству?

Ты любишь иногда похвастаться?

Ты иногда шумишь в классе, когда нет учителя?

Случалось ли тебе говорить плохо о ком-нибудь?

Ты всегда ешь все, что тебе предлагают?

Ты когда-нибудь был груб с родителями?
Проанализируйте приведенные вопросы и объясните основания их включения в «Шкалу лжи». Предложите 5 своих вопросов для «Шкалы лжи».

(Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С. 117.

ВАЛИДНОСТЬ.

Валидность еще одна важная характеристика теста, определяющая его качество.


Валидность (от англ. Validity - значимость, обоснованность, пригодность) - «это характеристика способности теста служить поставленной цели измерения» [6], т.е. способность теста измерять то, для чего он предназначен.

Валидность теста отвечает на вопрос о том, что именно выяв­ляет тест, насколько он пригоден для выявления того, для чего он предназначен. Например, тесты способностей нередко выявля­ют несколько иное: натренированность, наличие соответствую­щего опыта или, наоборот, его отсутствие. В таком случае тест не отвечает требованиям валидности (Загвязинский В.И., Атаханов Р.: 2003; 105).
Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (Анастази А.; Майоров А.Н.):

1) содержательную,

2) критериальную и

3) конструктную (концептуальную) валидность.
1) Содержательная валидность (content validity).

Когда идет речь об этом виде валидности, то имеется в виду соответствие теста как измерительного инструмента той области содержания, знания и умения которую проверяют данным тестом. В зависимости от выбранного подхода при создании теста будут предъявляться различные требования к содержательной валидности. Так для критериально-ориентированных тестов одно из требований содержательной валидности станет полнота отображения, а в некоторых случаях детализация проверяемой области содержания. При нормативно-ориентированном подходе тест можно охарактеризовать как валидный по содержанию, если он будет хорошо дифференцировать испытуемых и отражать самое важное, свидетельствующее о знании дисциплины.

Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания. Для педагогических тестов содержательная валидность очень важна и оценивается она экспертным путем. Независимые эксперты определяют, насколько тест охватывает область содержания проверяемого предмета.

  1. Критериальная валидность.


Критериальная валидность - это характеристика теста, отражающая обоснованность, значимость его результатов по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием).

Практически критериальную валидность определяют как корреляцию результатов тестирования и некоторым внешним критерием. В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания. Критериальная валидность в за висимости от выбранного критерия может быть текущей (внешний критерий - текущие оценки) или прогностической (критерий - некоторый будущий результат).

Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.

Формула:

sx2 – дисперсия индивидуальных баллов

N
– число студентов


-отклонение тестового балла i – го студента от среднего балла по тесту

-отклонение экспертного балла i – го студента от среднего арифметического экспертных оценок

Критериальная валидность измеряется от –1 до 1, валидность более 0,3 считается удовлетворительной.

Иногда педагог заинтересован в оценке прогностической валидности, указывающей меру вероятности прогноза успешности дальнейшего обучения по результатам выполнения теста. Высокой прогностической валидностью должны обладать тесты для приема абитуриентов в вузы. В этом случае результаты по тесту коррелируют с результатами поступивших абитуриентов после окончания первого года обучения в вузе. Высокая корреляция означает, что разработанные тесты прогностичны для отбора абитуриентов в вуз.


  1. Конструктная (концептуальная) валидность.

Об этом виде валидности говорится в том случае, если представление об измеряемом феномене существует только в проекте и требует доказательства. Разработчик теста только предполагает о том, как будет проявляться объект измерения. Чаще всего это относится к психологическим тестам.

Для педагогических тестов понятие конструктной валидности применимо в процессе разработки теста, когда его качественные и количественные характеристики еще не имеют определенных характеристик. Для выявления валидности на этапе создания теста используются методы корреляционного и факторного анализа.
В про­стейшем случае, по мнению Загвязинского В.И. и Атаханова Р., валидность теста обычно определяется путем со­поставления полученных в результате тестирования показателей с экспертными оценками о наличии данного свойства у исследуе­мых (текущая валидность или валидность «по одновременности»), а также путем анализа данных, полученных в результате наблюде­ния за обследуемыми в различных ситуациях их жизни и деятель­ности, и их достижений в соответствующей области. Вопрос о валидности теста может быть решен еще и сравнением его данных с показателями, полученными с помощью методики, связанной с данной методикой, валидность которой считается установлен­ной (Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С. 105.
Рассмотрим вариант схемы, минимизирующей влияние случайных факторов, ставящих под сомнение внутреннюю и внеш­нюю валидность эксперимента.

Внутренняя валидность соблюда­ется, когда очевидно, что именно изучаемое экспериментальное воздействие привело к изменениям в данном эксперименте.

Внеш­няя валидность соблюдается, когда очевидно, на какие ситуации, случаи, области и т.д. могут быть распространены результаты эксперимента.

Д. Кэмпбелл приводит 8 факторов, угрожающих внут­ренней валидности:


  1. Фактор фона — неконтролируемые события между началь­ным и контрольным измерениями.

  2. Фактор естественного развития.

  3. Эффект тестирования - влияние выполнения заданий первоначального тестирования на результаты следующего.

  4. Инструментальная погрешность, связанная с неточностью
    измерительного инструмента.

  1. Статистическая регрессия. Имеет место, когда группы отби­раются на основе крайних показателей и оценок. Известно, что точность измерений на крайних участках шкалы снижается.

  2. Фактор отбора испытуемых — неэквивалентность групп по составу.

  3. Отсев в ходе эксперимента.

  4. Взаимодействие фактора отбора с естественным развитием.



Перечислим факторы, ставящие под угрозу внешнюю валидность (Кэмпбелл Д.Т. Модели экспериментов в социальной психологии и прикладных исследованиях. – СПб., 1996. – С. 46-47. – цит. по Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С. 121-122.)

  1. Реактивный эффект — увеличение или уменьшение чувстви­тельности к экспериментальному воздействию под влиянием пред­варительного тестирования.

  2. Эффект взаимодействия фактора отбора и эксперименталь­ного воздействия.

  3. Условия организации эксперимента, вызывающие реакцию испытуемых на эксперимент.

  4. Взаимная интерференция экспериментальных воздействий.


Отдельно можно выделить неэкспериментальные влияния, кото­рые могут привести к артефактам (искусственно полученным фак­там) (лат. arte – искусственный + factus - сделанный, т.е. искаженный факт).

  1. Эффект плацебо, механизм которого основан на самовнуше­нии и внушении.

  2. Эффект Хоторна. Стимулируются осознанные или непроиз­вольные попытки соответствовать ожиданиям исследователя.

  3. Эффект Пигмалиона (эффект Розенталя) — субъективные влияния исследователя, заинтересованного в том или ином ре­зультате.


  4. Эффект аудитории — изменение поведения испытуемых под влиянием экспериментатора, публики.

  5. Эффект первичности — зависимость оценки суждения от пер­вого впечатления (См.: Горбатов Д.С. Практикум по психологическому исследованию. – Самара, 2000. – С. 24.- цит. по Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С. 122.).

Для профилактики артефактов могут быть использованы раз­личные приемы. Например:

  1. рандомизация выборок (случайный отбор испытуемых),

  2. дезинформирование испытуемых (сообщение им ложных целей, гипотезы эксперимента),

  3. маскировка экспери­ментальных воздействий, использование метода «скрытого» экс­перимента (когда испытуемые не подозревают, что участвуют в исследовании),

  4. использование «двойного слепого метода» (когда экспериментатор и испытуемые не знают, какая группа является экспериментальной, какая — контрольной),

  5. неинформированность лица, проводящего эксперимент, относительно его целей (Горбатов Д.С. Практикум по психологическому исследованию. – Самара, 2000. – С. 25.- цит. по Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С. 124.).


Выбор тех или иных методов должен соотноситься не только с их целесообразностью, но и с нравственно-этическими нормами, поскольку в социально-педагогических исследованиях очень важно не нане­сти урон, психологическую травму испытуемым. Условия разви­тия личности, формирования нравственных качеств должны со­блюдаться при любых экспериментах.

Проверка статистической гипотезы требует выбора статистиче­ского критерия, адекватного методике измерений и особенностям выборки. Наибольшее распространение в практике получили


t-кри­терий Стьюдента,

T-критерий Вилкоксона,

Q-критерий Розенбау-ма,

g*-критерий Фишера и др.
Подробнее см. Глас Дж., Стенли Дж. Статистические методы в педагогике и психологии: Пер. с англ. / Под ред. Ю.П. Афлера. – М., 1976.

Сидоренко Е.В. Методы математической обработки в психологии. – СПб., 1996.

Загвязинский В.И., Атаханов Р. – М.: 2003. – С. 124.




<< предыдущая страница   следующая страница >>