prosdo.ru
добавить свой файл
1 2 3 4 5 6
Пример. Анализ правдоподобности дистракторов в заданиях закрытой формы с четырьмя ответами






задания

Всего

Распределение ответов испытуемых

1-й ответ

2-й ответ

3-й ответ

4-й ответ

кол.

%

Кол.

%

кол.

%

кол.

%

1

96

8

8,3

1

1,0

65

67,7*

22

22,9

2

96

4

4,2

20

20,8

2

2,1

70

72,9*

3

97

19

19,6

29

29,9

24

24,7*

25


25,8

4

93

18

19,4

10

10,8

59

63,4*

6

6,5

5

96

47

49,0

33

34,4*

9

9,4

7

7,3

6

97

0

0,0

6

6,2

91

93,8*

0

0,0

7

90

19

21,1

24

26,7

40

44,4*

7

7,8

8

93

3

3,2

11

11,8

2

2,2

77

82,8*

9

86

31

36,0


1

1,2

22

25,6

32

37,2*

10

97

35

36,1

23

23,7

39

40,2*

0

0,0


Звездочками помечены верные ответы.

В результате дистракторного анализа выявляются задания с неработающими дистракторами (вариантами ответов в закрытом задании, которые испытуемые выбирают мало или вообще не выбирают). Если в задании есть неработающие дистракторы, то вероятность угадывания правильного ответа повышается, а следовательно снижается его трудность. Такие задания требуют переработки (замены неработающих дистракторов) или удаления их из теста. Задание №6 можно переделать в открытую форму.
Дискриминативность тестового задания.

Дискриминативность (дифференцирующая способность, различающая способность) задания - это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых. Если задание одинаково выполняется и слабыми, и сильными, то можно говорить о низкой дискриминативности задания. Если задание выполняется сильными испытуемыми, а слабые дают отрицательный результат, то мы имеем высокую дискриминативность. Высокая дискриминативность тестовых заданий важна для нормативно-ориентированных тестов, основная цель которых - ранжирование учащихся по уровню достижений.

Один из способов вычисления дискриминативности - вычисление с применением метода крайних групп, где для расчета берутся показатели самых слабых и самых сильных испытуемых. Чаще всего это 27 (30) % худших и 27 (30) % лучших по результатам выполнения тестового задания.


Индекс дискриминативности определяется как разность долей правильных ответов сильной и слабой групп.

(r дис)j = (p1)j - (p0)j,

или

(r дис)j = ((P1)j - (P0)j)/100%, если трудность задана в процентах

где r - индекс дискриминативности, p1 - доля правильных ответов в сильной подгруппе (27 % от всего количества), p0 - доля правильных ответов в слабой группе (27 %). Значение индекса дискриминативности располагается в интервале [- 1; 1]. Если индекс дискриминативности выше нуля (больше 0,3 считается удовлетворительным), а еще лучше стремится к 1, то это свидетельствует о том, что задание обладает хорошим (максимальным) дифференцирующим эффектом. Если r = 0, то это значит, что и слабые, и сильные испытуемые выполняют задание одинаково. Отрицательный показатель дискриминативности, появляется в том случае, когда слабые учащиеся выполняют задание правильно, а сильные - неправильно, что свидетельствует о некачественном (невалидном) задании. Соответственно тестовые задания с показателями rдис близким к 0 и rдис< 0 следует удалить

№ задания

Pj для всех испытуемых

Группа

Индекс

rдис

Pj для слабой

Pj для сильной

1

21,0

6,5

32,0

0,26


2

94,0

90,0

97,0

0,065

3

64,0

42,0

97,0

0,55

4

59,0

68,0

58,0

-0,097

5

27,0

16,0

29,0

0,13

6

70,0

29,0

94,0

0,65

7

30,0

13,0

42,0

0,29

8

12,0

9,7

16,0

0,065

9

33,0

16,0

52,0

0,35

10

73,0

42,0

90,0

0,48


Трудность и дискриминативность - взаимосвязанные характеристики тестового задания.

Высокая дискриминативность, которая свидетельствует о сильном дифференцирующем эффекте тестового задания, характерна для заданий со средним показателем трудности (0,5).


С помощью подсчета значений бисериальной или точечно-бисериальной корреляции (связи) также оценивается валидность отдельных заданий теста. Коэффициенты считаются, когда один набор значений распределения задается в дихотомической шкале, а другой - в интервальной. В нашем случае мы находим показатель связи между результатами выполнения каждого задания (дихотомическая шкала) и суммой баллов испытуемых по заданиям теста (интервальная шкала). Мы будем использовать формулу для нахождения точечно-бисериального коэффициента, так как он, в отличии от бисериального, не может выходить за рамки [-1; 1], что более удобно для интерпретации.
, где

- среднее значение индивидуальных баллов испытуемых, выполнивших верно j-ое задание теста,

- среднее значение индивидуальных баллов испытуемых, выполнивших неверно j-ое задание теста,

Sx – стандартное отклонение по множеству значений индивидуальных баллов,

(N1)j – число испытуемых, выполнивших верно j-ое задание теста,

(N0)j – число испытуемых, выполнивших неверно j-ое задание теста,

N – общее число испытуемых.

В целом задание можно считать валидным, если rpbis близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно. Если цель – дифференциация учеников по уровню подготовленности, то валидные задания должны четко отделить хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Значения rpbis близкие к нулю, указывают на низкую дифференцирующую способность заданий теста. Все задания у которых rpbis<0, подлежат удалению из теста, так как на эти задания верно отвечают слабые ученики, а сильные либо ошибаются либо пропускают это задание.

Корреляци­онный анализ.

Метод корреляционного анализа позволяет определять связи между явлениями, а следовательно, позволяет устанавливать психолого-педагогические закономерности на основе статистического подхода. Мера связи (кор­реляции) позволяет ответить на вопрос, как сильно между собой связаны два признака одной и той же группы.

Под корреляционной связью понимают согласованные (сопряженные) изменения двух или более признаков.

Количественная величина степени согласования признаков называется коэффициентом корреляции.

Примеры исследовательских психолого-педагоги­ческих задач, решение которых требует использования средств корреляционного анализа:


  1. Определение для конкретной группы учащихся степени свя­зи между оценками, полученными в процессе обучения, и уров­нем умственного развития. Понятно, что нулевая или отрицательная связь будет свидетельствовать о том, что система оценивания учебной деятельности учащихся не опирается на факторы разви­тия ученика и вообще является тормозом умственного развития.

  2. Определение степени связи между тревожностью ребенка уровнем проявления творческих способностей. Возможно предпо­ложение, что подавление развития творческих способностей при­ведет к повышению уровня тревожности

  3. Определение связи между стилем педагогической деятельности учителя и формирующимися личностными качествами учащихся.

  4. Определение связи между объемом учебной нагрузки по раз­личным учебным предметам и утомляемостью учащихся.

Подробное описание методик расчета коэффициентов корре­ляции приводится в работе Дж. Гласса и Дж. Стенли – Глас Дж., Стенли Дж. Статистические методы в педагогике и психологии: Пер. с англ. / Под ред. Ю.П. Афлера. – М., 1976; Сидоренко Е.В. Методы математической обработки в психологии. – СПб., 1996.


В практике можно использовать корреляционный ана­лиз и не вникая в математические тонкости. Для этого используют компьютерные программы Excel и Statistica (Загвязинский В.И., Атаханов Р. Методология и методы психолого-педагогического исследования. – М.: 2003. – С.129-130.
Применение тестов всегда связано с измерением проявления того или иного психологического свойства и оценки уровня его развития или сформированности. Поэтому важное значение имеет качество теста. Качество теста характеризуется критериями его точности, т.е. надежностью и валидностью. Т.о., надежность и валидность являются основными показателями качества теста. А так как тест является инструментом педагогического измерения, то эти показатели имеют численное значение и определяются с помощью различных методов как в классической теории тестов, так и в современной теории тестов.


НАДЕЖНОСТЬ.
// Морис Решлен Измерение в психологии

ПРОБЛЕМА НАДЕЖНОСТИ ИЗМЕРЕНИЯ


  1. § 1. Смысл проблемы

Можно двояким образом формулировать проблему надеж­ности измерения.

А) Прежде всего можно считать, что метод измерения приме­няется к такому объекту, в отношении которого постулируется его существование и инвариантность, и, кроме того, сам объект от природы обладает некоторыми свойствами, которые могли бы быть познаны иным методом, помимо самого измерения, и которые в этом смысле независимы от него. В этом случае считают возмож­ным многократное измерение одного и того же объекта. Если числа, последовательно приписываемые таким образом одному и тому же объекту, не являются равными, делают вывод, что каж­дое из них состоит из суммы двух чисел, одно из которых пред­ставляет собой истинное измерение, а другое — ошибку. Посколь­ку истинное измерение по определению является в подобной ситуации идентичным для всех произведенных измерений, диспер­сия этих последних дает меру амплитуды вариаций ошибки. Не исключено существование «систематической ошибки», инвариант­ной в ходе повторных измерений одного и того же объекта. Заметим, что эта ошибка соответствует смещению начала исполь­зуемой шкалы измерения и не сказывается, следовательно, на свойствах шкалы с произвольным началом (шкалы интервалов и подчиненные им шкалы) в том случае, разумеется, когда эти свойства используются в отношении всей совокупности измеряе­мых объектов при той же самой систематической ошибке.


В подобном случае можно, в частности, сравнивать оценку дисперсии истинных измерений с оценкой вариаций ошибки. Если измерения производят с целью дифференциации объектов, то из­мерение может выполнить свое назначение тем точнее, чем боль­ше будет зависимость между дисперсией истинных измерений ж дисперсией ошибок (или оценка этой зависимости).

В этих терминах проблема ставится, в частности, некоторыми методами оценки надежности тестов, методами, применяющими дисперсионный анализ.

При таком понимании проблемы надежности видно, что постоян­ные свойства приписываются независимо друг от друга измеряе­мому объекту и инструменту измерения: субъект постоянно обла­дает известной степенью способности независимо от того, подвер­гается он испытанию или нет; тест обладает определенной сте­пенью надежности независимо от индивидов, которые подвер­гаются испытанию (в популяциях, где истинная дисперсия остает­ся одной и той же).

Б) В психологии можно использовать и другое понимание про­блемы, которое разделяется в области эпистемологии физиче­ских наук некоторыми философами.

Если считать, что такие понятия, как понятия сенсорного поро­га или уровня способностей, могут быть точно определены лишь посредством описания какой-то экспериментальной операции (при­бора, используемого для измерения порога, теста), то нельзя приписывать порогу или способности абсолютное измерение, независимое от этой операции, как нельзя приписывать способу измерения абсолютную характеристику, независимую от объекта, к которому оно относится. Фактически измерение и его объект составляют одно целое, и мы скажем, что объект существует, если между несколькими измерениями устанавливается воспроизводи­мая зависимость: например, о сенсорном пороге мы будем говорить только в том случае, если можно многократно обнаружить одну и ту же зависимость между вариациями физического измерения стимулов и вариациями ответов испытуемого. Действительно, наблюдаемые экспериментальные отношения в самом деле более или менее воспроизводимы, и, например, не всегда точно при одном и том же размахе концов эстезиометра впервые возникает ощущение двух прикосновений у отдельного испытуемого и у испытуемых вообще. Поэтому об объекте изучения можно говорить, что он то более, то менее обнаруживается, а о пороге, определяемом по­добной экспериментальной процедурой, что его более или менее легко определить у испытуемого.

Независимо от того, какое из этих двух пониманий принимает­ся, ясно, что определение надежности требует прежде всего, чтобы измерение было по крайней мере экспериментально повторено и затем чтобы численная обработка производилась, исходя из этих повторных измерений.




<< предыдущая страница   следующая страница >>