Теория ответа деталя

Материал из wikixw
Перейти к навигации Перейти к поиску

В психометрии теория реагирования на предмет ( IRT) (также известная как теория латентных признаков, теория сильной истинной оценки или современная теория психических тестов ) является парадигмой для проектирования, анализа и подсчета баллов тестов, анкет и аналогичных инструментов измерения способности, отношение или другие переменные. Это теория тестирования, основанная на взаимосвязи между показателями отдельных людей на тестовом элементе и уровнями производительности тестируемых по общей мере способности, которую этот элемент был разработан для измерения. Для представления характеристик изделия и тестируемого используется несколько различных статистических моделей. в отличие от более простых альтернатив для создания шкал и оценки ответов на вопросник, он не предполагает, что каждый пункт одинаково сложен. Это отличает IRT, например, от likert scaling, в котором "Все пункты считаются повторениями друг друга или, другими словами, пункты считаются параллельными инструментами" (стр. 197). В отличие от этого, теория отклика элемента рассматривает сложность каждого элемента (характеристические кривые элемента или ICCs ) как информацию, которая должна быть включена в элементы масштабирования.

Он основан на применении соответствующих математических моделей к данным испытаний . Поскольку он часто считается превосходящим классическую теорию тестирования, это предпочтительный метод для разработки шкал в Соединенных Штатах, особенно когда требуются оптимальные решения, как в так называемых тестах с высокими ставками , например, экзамен по выпускной записи (GRE) и экзамен по выпускному менеджменту (GMAT).

Название item response theory обусловлено фокусом теории на предмет, в отличие от фокуса уровня теста классической теории тестов. Таким образом, IRT моделирует ответ каждого испытуемого о данной способности на каждый пункт теста. Термин item является общим, охватывающим все виды информационных элементов. Это могут быть вопросы с множественным выбором, которые имеют неправильные и правильные ответы, но также обычно являются утверждениями В анкетах, которые позволяют респондентам указывать уровень согласия (рейтинг или шкала Likert), или симптомы пациента, отмеченные как присутствующие / отсутствующие, или диагностическая информация в сложных системах.

IRT основан на идее, что вероятность правильного/ключевого ответа на элемент является математической функцией параметров человека и элемента . (Выражение " математическая функция параметров человека и предмета” аналогично уравнению Курта Левина B = f(P, E) , которое утверждает, что поведение является функцией человека в их окружении.) Параметр person интерпретируется как (как правило) один скрытый признак или измерение. Примеры включают общую разведку или сила отношения. Параметры, по которым предметы отличаются включать их сложности (известный как "место" для их расположения на сложности ассортимента); дискриминация (уклон или корреляции), представляя как круто коэффициент успеха варьируется лиц с их способностями; и pseudoguessing параметра, характеризующего (нижняя) асимптоту при которой даже наименее способный человек забьет из-за угадывание (например, 25%, по чистой случайности на множественный выбор элемента с четырьмя вариантами ответов).

Таким же образом, IRT может использоваться для измерения поведения человека в онлайновых социальных сетях. Мнения, выраженные различными людьми, могут быть объединены для изучения с помощью IRT. Была также проведена оценка его использования для классификации информации как дезинформации или истинной информации.

Обзор[править]

Концепция функции ответа на элемент была примерно до 1950 года. Пионерская работа IRT как теории произошла в 1950-х и 1960-х гг. тремя из пионеров были психометрист службы Тестирования Образования Фредерик М. Лорд [4] датский математик Георг Раш и австрийский социолог Пауль Лазарсфельд, которые проводили параллельные исследования независимо. Ключевые фигуры, которые способствовали прогрессу IRT включают в себя Бенджамин Дрейк Райт и Дэвид Андрич. ИРТ не получил широкого распространения вплоть до конца 1970-х и 1980-х годов, когда практикам было сказано о "полезности" и "преимуществах" ИРТ, с одной стороны, а персональные компьютеры дали многим исследователям доступ к вычислительной мощности, необходимой для ИРТ, с другой.

Среди прочего, цель IRT заключается в том, чтобы обеспечить основу для оценки того, насколько хорошо работают оценки и насколько хорошо работают отдельные пункты по оценкам. Наиболее распространенное применение IRT - это в образовании , где психометрические специалисты используют его для разработки и проектирования экзаменов, ведения банков элементов для экзаменов и уравнивания трудностей элементов для последовательных версий экзаменов (например, чтобы позволить сравнивать результаты с течением времени).[5]

Модели IRT часто называют латентными моделями признаков . Термин латентный используется для того, чтобы подчеркнуть, что дискретные ответы на предмет принимаются за наблюдаемые проявления гипотетических черт, конструкций или атрибутов, не наблюдаемых непосредственно, но которые должны выводиться из явных ответов. Латентные модели признаков были разработаны в области социологии, но практически идентичны IRT-моделям.

IRT вообще заявлено как улучшение над классической теорией теста (CTT). Для задач, которые могут быть выполнены с помощью CTT, IRT обычно обеспечивает большую гибкость и предоставляет более сложную информацию. Некоторые приложения , такие как компьютеризированное адаптивное тестирование, включены IRT и не могут быть разумно выполнены с использованием только классической теории тестирования. Еще одно преимущество IRT перед CTT заключается в том, что более сложная информация, которую предоставляет IRT, позволяет исследователю повысить надежность оценки.

IRT влечет за собой три допущения:

  • Одномерный признак, обозначаемый θ {\displaystyle {\theta }} {\тета } ;
  • Местная независимость пунктов;
  • Ответ человека на элемент может быть смоделирован с помощью математической функции ответа элемента (IRF).

Признак далее предполагается измерять по шкале (само существование теста предполагает это), как правило, устанавливается на стандартную шкалу со средним значением 0,0 и стандартным отклонением из 1.0. Одномерность следует толковать как однородность, качество, которое должно быть определено или эмпирически продемонстрировано в отношении данной цели или использования, но не как количественную величину, которую можно измерить. "Локальная независимость" означает (А), что вероятность использования одного элемента не связана с использованием другого элемента(ов) и (Б), что ответ на элемент является независимым решением каждого тестируемого, то есть нет никакого обмана или парной или групповой работы. Тема размерности часто исследуется с помощью факторного анализа, в то время как IRF является основным строительным блоком IRT и является центром большей части исследований и литературы.

Функция ответа на элемент[править]

IRF дает вероятность того, что человек с заданным уровнем способностей ответит правильно. Люди с более низкими способностями имеют меньше шансов, в то время как люди с высокими способностями очень вероятно, чтобы ответить правильно; например, студенты с более высокими математическими способностями более вероятно, чтобы получить математический элемент правильно. Точное значение вероятности зависит, помимо способности, от набора параметров элемента для IRF.'Полужирное начертание'

Трехпараметрическая логистическая модель[править]

Рисунок 1: Пример 3PL IRF, с наложенными пунктирными линиями для демонстрации параметров.

Например, в трехпараметрической логистической модели ( 3PL) вероятность правильного ответа на дихотомический элемент i, обычно вопрос с множественным выбором, равна:

  • p i ( θ ) = c i + 1 − c i 1 + e − a i ( θ − b i )

где θ {\тета }указывает, что способности человека моделируются как выборка из нормального распределения с целью оценки параметров изделия. После того, как параметры изделия были оценены, оцениваются способности отдельного человека для целей отчетности. a i тебя}, b i и c i являются параметрами элемента. Параметры элемента определяют форму IRF. На рисунке 1 показан идеальный 3PL ICC.

Параметры изделия можно интерпретировать как изменение формы стандартной логистической функции:


  • P ( t ) = 1 1 + e − t .

Вкратце, параметры интерпретируются следующим образом (отбрасывая нижние индексы для удобочитаемости); b является самым основным, следовательно, перечисленным первым:

  • b-сложность, расположение элемента: p ( b ) = ( 1 + c ) / 2 ,} p (b)=(1+c)/2,точка на полпути между c i(min) и 1 (max), также где уклон максимизирован.
  • а-дискриминация, масштаб, уклон: максимальный уклон p ′ ( b ) = a ⋅ ( 1 − c ) / 4. } p'(b)=a\cdot (1-c)/4.
  • c-псевдо-угадывание, случайность, асимптотический минимум p ( − ∞ ) = c .c.

Если c = 0 , ,затем они упрощаются p ( b ) = 1 / 2 p (b)=1/2и p ′ ( b ) = a / 4 , p'(b)=a / 4,означают, что b равен 50% - му уровню успеха (трудности), а a (разделенный на четыре) - это максимальный наклон (дискриминация), который происходит на уровне 50% успеха. Кроме того, логит (журнал шансы) правильного ответа a ( θ − b ) } a (\theta-b) (предполагается, что c = 0 c=0): в частности, если возможность θ равна сложности Б, есть даже шансы (1:1, так логит 0) правильный ответ, тем больше способность выше (или ниже) сложность больше (или меньше) скорее всего правильным ответом, с дискриминацией в определении того, как быстро шансы увеличить или уменьшить способность.

Другими словами, стандартная логистическая функция имеет асимптотический минимум 0 ( c = 0 c=0), центрируется вокруг 0 ( b = 0 b=0, P ( 0 ) = 1 / 2 P (0)=1/2) и имеет максимальный наклон P ′ ( 0 ) = 1 / 4. . a {\displaystyle a} естьпараметр растягивает горизонтальную шкалу, b сипараметр сдвигает горизонтальную шкалу, а c ссжатие вертикальной шкалы от [ 0 , 1 ] } [0,1] [ c , 1 ] . [c, 1].этого подробно описано ниже.

Параметр b i b_{i}представляет расположение элемента, которое в случае тестирования достижения называется трудностью элемента. Это точка на θ {\тета }которой IRF имеет свой максимальный наклон, и где значение находится на полпути между минимальным значением c i }и максимальным значением 1. Пример элемента имеет среднюю сложность, так как b i }=0.0, что находится вблизи центра распределения. Обратите внимание, что эта модель масштабирует сложность предмета и черту человека на один и тот же континуум. Таким образом, можно говорить о том, что предмет примерно так же сложен, как уровень признака человека А или уровень признака человека примерно такой же, как сложность элемента Y, в том смысле, что успешное выполнение задачи, связанной с элементом, отражает определенный уровень способностей.

Параметр item a i тебя}представляет собой степень дискриминации данного элемента, то есть степень, в которой этот элемент различает людей в различных регионах латентного континуума. Этот параметр характеризует наклон IRF, где наклон находится на своем максимуме. Элемент примера имеет a i тебя}значение = 1,0, что довольно хорошо различает; люди с низкими способностями действительно имеют гораздо меньше шансов правильно ответить, чем люди с более высокими способностями.

Для таких элементов, как элементы множественного выбора, параметр c i }используется в попытке учесть влияние угадывания на вероятность правильного ответа. Это указывает на вероятность того, что люди с очень низкими способностями случайно получат этот элемент, математически представленный в виде нижней асимптоты . Элемент множественного выбора с четырьмя вариантами может иметь IRF, подобный элементу примера; существует 1/4 вероятность того, что кандидат с чрезвычайно низкой способностью угадает правильный ответ, поэтому c i было бы приблизительно 0.25. Этот подход предполагает, что все варианты одинаково правдоподобны, потому что если один вариант не имеет смысла, даже самый низкий человек сможет отказаться от него, поэтому методы оценки параметров IRT учитывают это и оценивают a c i }на основе наблюдаемых данных.

IRT-модели[править]

Вообще говоря, IRT-модели можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют одного измерения признака (способности) θ {\тета }. Многомерные модели IRT модельные данные отклика гипотетически возникают из нескольких признаков. Однако из-за значительно возросшей сложности большинство исследований и прикладных программ в области ИРТ используют одномерную модель.

Модели IRT также можно классифицировать на основе количества набранных ответов. Типичный элемент множественного выбора дихотомичен ; даже если есть четыре или пять вариантов, он все равно оценивается только как правильный/неправильный (правильный/неправильный). Другой класс моделей применяется к политомным результатам, где каждый ответ имеет различное значение оценки. распространенным примером этого являются элементы типа Likert, например, "ставка по шкале от 1 до 5."

Количество параметров IRT[править]

Дихотомические модели IRT описываются количеством параметров, которые они используют.[9] 3PL назван так, потому что он использует три параметра элемента. Двухпараметрическая модель (2PL) предполагает, что данные не имеют предположений, но что элементы могут отличаться с точки зрения местоположения ( b i ) и дискриминации ( a i } тебя}). Однопараметрическая модель (1PL) предполагает, что угадывание является частью способности и что все элементы, соответствующие модели, имеют эквивалентные дискриминации, так что элементы описываются только одним параметром ( b i ). Это приводит к тому, что однопараметрические модели обладают свойством специфической объективности, что означает, что ранг сложности предмета одинаков для всех респондентов независимо от способности, и что ранг способности человека одинаков для предметов независимо от сложности. Таким образом, модели с одним параметром являются независимыми от выборки, свойство, которое не выполняется для двух-и трехпараметрических моделей. Кроме того, теоретически существует четырехпараметрическая модель (4PL) с верхней асимптотой, обозначенной d i , ,где 1 − c i 1-c_{i}в 3PL заменяется на d i − c i }. Однако это редко используется. Обратите внимание, что алфавитный порядок параметров элемента не соответствует их практической или психометрической важности; параметр location/difficulty ( b i явно наиболее важен, потому что он включен во все три модели. 1PL использует только b i , 2PL использует b i b_{i}и a i тебя}, 3PL добавляет c i }, и 4PL добавляет d i 2PL эквивалентна модели 3PL С c i = 0 { c_{i}=0и подходит для тестирования элементов, где угадывание правильного ответа крайне маловероятно, например, заполнить пустые элементы ("Что такое квадратный корень из 121?"), или там, где понятие угадывания не применяется, например, личность, отношение или предметы интереса (например, " Мне нравятся бродвейские мюзиклы. Согласен/Не Согласен").

1PL предполагает не только то, что угадывание отсутствует (или не имеет отношения к делу), но и то, что все элементы эквивалентны с точки зрения дискриминации, аналогичной общему факторному анализу с одинаковыми нагрузками для всех элементов. Отдельные предметы или отдельные лица могут иметь вторичные факторы, но они считаются взаимно независимыми и коллективно ортогональными .

Логистические и нормальные модели IRT[править]

Альтернативная формулировка строит IRFs, основанные на нормальном распределении вероятностей; их иногда называют нормальными оживляющими моделями . Например, формула для двухпараметрического IRF normal-ogive имеет вид:

   p i ( θ ) = Φ ( θ − b i σ i ) 

где Φ-кумулятивная функция распределения (cdf) стандартного нормального распределения.

Нормальная-оживляющая модель исходит из предположения о нормально распределенной погрешности измерения и теоретически привлекательна на этой основе. Вот b i , опять же, параметр сложности. Параметром дискриминации является σ i среднеквадратичное отклонение погрешности измерения для пункта i, сопоставимое с 1/ a i тебя}.

Можно оценить нормальную-оживляющую латентную модель признака путем факторного анализа матрицы тетрахорных корреляций между элементами. это означает, что технически возможно оценить простую модель IRT с помощью статистического программного обеспечения общего назначения.

При масштабировании параметра способности можно сделать логистическую модель 2PL близко аппроксимирующей кумулятивное нормальное оживление . Как правило, 2PL-логистические и нормально-оживляющие ИРФ отличаются по вероятности не более чем на 0,01 в диапазоне функции. Однако наибольшая разница наблюдается в распределении хвостов, которые, как правило, оказывают большее влияние на результаты.

Модель латентного признака / IRT первоначально была разработана с использованием обычных ogives, но это считалось слишком вычислительно требовательным для компьютеров в то время (1960-е годы). Логистическая модель была предложена в качестве более простой альтернативы и с тех пор широко используется. Однако совсем недавно было продемонстрировано, что с использованием стандартных полиномиальных приближений к нормальному cdf нормальная оживляющая модель не является более вычислительно требовательной, чем логистические модели.

Модель Rasch[править]

Модель Rasch часто считается моделью IRT 1PL. Однако сторонники моделирования Раша предпочитают рассматривать его как совершенно иной подход к концептуализации взаимосвязи между данными и теорией.[13] Как и другие статистические подходы моделирования, ИРТ подчеркивает примат соответствия модели наблюдаемым данным, а в Раше модель подчеркивает примат требованиям Основных измерения, по которым имеются адекватные данные модель является важным, но общее требование, которое должно выполняться перед экзаменом или инструментом исследования могут быть востребованы для измерения признака. В оперативном плане это означает, что подходы IRT включают дополнительные параметры модели для отражения закономерностей, наблюдаемых в данных (например, позволяя элементам варьироваться в их корреляции с латентным признаком), в то время как в подходе Rasch утверждения о наличии латентного признака могут считаться действительными только тогда, когда а) данные соответствуют модели Rasch, и b) тестовые элементы и испытуемые соответствуют модели. Таким образом, в рамках моделей Раша несоответствующие ответы требуют диагностики причины несоответствия и могут быть исключены из набора данных, если можно существенно объяснить, почему они не затрагивают латентный признак. Таким образом, подход Раша можно рассматривать как подтверждающий подход, в отличие от исследовательских подходов, которые пытаются смоделировать наблюдаемые данные.

Наличие или отсутствие параметра угадывания или псевдошанса является главным и иногда спорным различием. Подход IRT включает в себя левый параметр асимптоты для учета угадывания в множественном выборе исследования, в то время как модель Раша не делает, потому что предполагается, что угадывание добавляет случайно распределенный шум к данным. Поскольку шум распределяется случайным образом, предполагается, что при условии проверки достаточного количества элементов ранговое упорядочение лиц по латентному признаку по сырой оценке не изменится, а будет просто подвергаться линейному масштабированию. В отличие от этого, трехпараметрический IRT достигает подгонки модели данных, выбирая модель, которая соответствует данным, [17] за счет потери конкретной объективности .

На практике модель Раша имеет по меньшей мере два принципиальных преимущества по сравнению с подходом IRT. Первое преимущество-это примат специфических требований Раша , которые (при их выполнении) обеспечивают фундаментальное безличностное измерение (где лица и предметы могут быть сопоставлены в одной и той же инвариантной шкале). Еще одно преимущество подхода Rasch заключается в том, что оценка параметров является более простой в моделях Rasch из-за наличия достаточной статистики, что в данном приложении означает взаимно однозначное сопоставление исходных числовых оценок с θ {\тета }оценками Rasch.

Анализ подгонки модели[править]

Как и при любом использовании математических моделей, важно оценить соответствие полученных данных модели. Если несоответствие элемента с какой-либо моделью диагностируется как из-за плохого качества элемента, например путаницы дистракторов в тесте с множественным выбором, то элементы могут быть удалены из этой тестовой формы и переписаны или заменены в будущих тестовых формах. Однако если большое число несоответствующих элементов возникает без видимой причины несоответствия, то необходимо будет пересмотреть обоснованность конструкции испытания и, возможно, потребуется переписать спецификации испытания. Таким образом, misfit предоставляет бесценные диагностические инструменты для разработчиков тестов, позволяя эмпирически проверить гипотезы, на которых основаны спецификации тестов, на основе данных.

Существует несколько методов оценки соответствия, таких как статистика Хи-квадрат или ее стандартизированная версия. Двух-и трехпараметрические модели IRT корректируют дискриминацию элементов, обеспечивая улучшенную подгонку модели данных, поэтому статистика подгонки не имеет подтверждающей диагностической ценности, найденной в однопараметрических моделях, где идеализированная модель задается заранее.

Данные не должны быть удалены на основании несоответствия модели, а скорее потому, что была диагностирована соответствующая причина несоответствия, такая как неродной носитель английского языка, принимающий научный тест, написанный на английском языке. Можно утверждать, что такой кандидат не принадлежит к одной и той же популяции лиц в зависимости от размерности теста, и, хотя один параметр IRT меры считаются независимыми от выборки, они не являются независимыми от популяции, поэтому несоответствие, такое как это, является конструктом релевантным и не делает недействительным тест или модель. Такой подход является одним из важнейших инструментов при валидации приборов. В двух - и трехпараметрических моделях, где психометрическая модель настраивается на соответствие данным, будущие администрации теста должны быть проверены на соответствие той же модели, которая использовалась при первоначальной проверке, чтобы подтвердить гипотезу о том, что баллы от каждой администрации обобщаются на другие администрации. Если для каждой администрации указывается разная модель с целью достижения соответствия модели данных, то измеряется другой латентный признак, и результаты испытаний нельзя утверждать, что они сопоставимы между администрациями.

Информация[править]

Одним из основных вкладов теории отклика изделия является расширение понятия надежности . Традиционно под надежностью понимается точность измерения (т. е. степень, в которой измерение не содержит ошибок). Традиционно он измеряется с помощью одного показателя, определенного различными способами, такими как отношение истинной и наблюдаемой дисперсии баллов. Этот индекс полезен при характеристике средней надежности теста, например, для сравнения двух тестов. Но IRT дает понять, что точность не является однородной во всем диапазоне результатов тестирования. Например, баллы по краям диапазона теста обычно имеют больше ошибок, связанных с ними, чем баллы ближе к середине диапазона.

Теория отклика элемента выдвигает концепцию элемента и тестовой информации для замены надежности. Информация также является функцией параметров модели. Например, согласно теории информации Фишера, элемент информации, предоставляемый в случае 1PL для дихотомических данных ответа, представляет собой просто вероятность правильного ответа, умноженную на вероятность неправильного ответа, или,

  • I ( θ ) = p i ( θ ) q i ( θ ) .

Стандартная ошибка оценки (SE) является обратной частью тестовой информации на заданном уровне признака, является

  • SE ( θ ) = 1 I ( θ ) .

Таким образом, чем больше информации, тем меньше погрешность измерения.

Для других моделей, таких как модели с двумя и тремя параметрами, параметр дискриминации играет важную роль в функции. Функция информации о товаре для двухпараметрической модели является

  • I ( θ ) = a i 2 p i ( θ ) q i ( θ ) .

Функция информации о товаре для трехпараметрической модели является

  • I ( θ ) = a i 2 ( p i ( θ ) − c i ) 2 ( 1 − c i ) 2 q i ( θ ) p i ( θ ) .

В целом, информационные функции элемента, как правило, выглядят колокольчатыми. Сильно различающие элементы имеют высокие, узкие информационные функции; они вносят большой вклад, но в узком диапазоне. Менее разборчивые элементы дают меньше информации, но в более широком диапазоне.

Эпюры информации о номенклатуре можно использовать, чтобы увидеть, сколько информации вносит элемент и к какой части диапазона оценки шкалы. Из-за местной независимости информационные функции элемента являются аддитивными . Таким образом, информационная функция теста-это просто сумма информационных функций элементов на экзамене. Используя это свойство с большим банком элементов, функции тестовой информации могут быть сформированы для очень точного контроля погрешности измерения.

Характеристика точности результатов тестирования является, пожалуй, центральным вопросом в психометрической теории и является главным отличием между IRT и CTT. Результаты IRT показывают, что концепция надежности CTT является упрощением. Вместо надежности, IRT предлагает функцию информации по испытанию которая показывает степень точности на различных значениях тэты, θ.

Эти результаты позволяют психометрикам (потенциально) тщательно формировать уровень надежности для различных диапазонов способностей, включая тщательно выбранные элементы. Например, в ситуации сертификации, в которой тест может быть только пройден или провален, где есть только один "рекорд", и где фактический проходной балл не имеет значения, очень эффективный тест может быть разработан путем выбора только тех элементов, которые имеют высокую информацию рядом с рекордом. Эти элементы обычно соответствуют элементам, сложность которых примерно такая же, как и у cutscore.

Подсчет[править]

Параметр person θ }представляет собой величину латентного признака индивидуума, который является человеческим потенциалом или атрибутом, измеряемым тестом.это может быть когнитивная способность, физическая способность, навык, знание, отношение, характеристика личности и т. д.

Оценка параметра person - "оценка" на тесте с IRT-вычисляется и интерпретируется очень по-разному по сравнению с традиционными баллами, такими как число или процент правильности. Общая оценка правильности числа индивидуума не является фактической оценкой, а скорее основана на IRFs, что приводит к взвешенной оценке, когда модель содержит параметры дискриминации элементов. Он фактически получается путем умножения функции отклика элемента для каждого элемента, чтобы получить функцию правдоподобия , наивысшей точкой которой является оценка максимального правдоподобия θ . Эта самая высокая точка обычно оценивается с помощью программного обеспечения IRT с использованием метода Ньютона-Рафсона. в то время как оценка с помощью IRT является гораздо более сложной, для большинства тестов (линейная) корреляция между оценкой тета и традиционной оценкой очень высока; часто это так .95 или даже больше. График оценок IRT по сравнению с традиционными баллами показывает оживленную форму, подразумевающую, что IRT оценивает отдельных людей на границах диапазона больше, чем в середине.

Важным отличием СТТ от ИРТ является обработка погрешности измерения, индексируемой по стандартной погрешности измерения . Все тесты, опросники и описи-это неточные инструменты; мы никогда не можем знать истинную оценку человека , а скорее только оценку, наблюдаемую оценку. Существует некоторое количество случайных ошибок, которые могут подтолкнуть наблюдаемый балл выше или ниже, чем истинный балл. CTT предполагает, что количество ошибок одинаково для каждого испытуемого, но IRT позволяет ему варьироваться.

Кроме того, ничто в IRT не опровергает развитие или улучшение человека или предполагает, что уровень признака фиксирован. Человек может приобрести навыки, знания или даже так называемые "навыки сдачи тестов", которые могут привести к более высокому истинному баллу. На самом деле, часть исследований IRT сосредоточена на измерении изменения уровня признака.[25] Сравнение классической и предметной теорий отклика

Классическая теория тестов (CTT) и IRT в значительной степени связаны с одними и теми же проблемами, но являются различными органами теории и влекут за собой различные методы. Хотя эти две парадигмы, как правило, непротиворечивы и дополняют друг друга, существует ряд моментов различия:

  • IRT делает более сильные предположения, чем CTT, и во многих случаях обеспечивает соответственно более сильные выводы; прежде всего, характеристики ошибки. Конечно, эти результаты имеют место только тогда, когда предположения моделей IRT фактически выполнены.
  • Хотя результаты КТТ позволили получить важные практические результаты, основанный на модели характер ИРТ дает много преимуществ по сравнению с аналогичными результатами КТТ.
  • Скоринговые процедуры CTT-теста имеют то преимущество, что они просты в вычислении (и объяснении), в то время как скоринг IRT обычно требует относительно сложных процедур оценки.
  • IRT предоставляет несколько улучшений в масштабировании элементов и людей. Специфика зависит от модели IRT, но большинство моделей масштабируют сложность предметов и способность людей по одной и той же метрике. Таким образом, сложность предмета и способность человека могут быть значительно сопоставлены.
  • Другое улучшение, обеспечиваемое IRT, заключается в том, что параметры моделей IRT, как правило, не зависят от выборки или теста, тогда как истинная оценка определяется в CTT в контексте конкретного теста. Таким образом, IRT обеспечивает значительно большую гибкость в ситуациях, когда используются различные образцы или тестовые формы. Эти результаты IRT являются основополагающими для компьютерного адаптивного тестирования.

Стоит также упомянуть о некоторых специфических сходствах между CTT и IRT, которые помогают понять соответствие между понятиями. Во-первых, Лорд [26] показал, что в предположении, которое θ обычно распределено, дискриминация в модели 2PL является приблизительно монотонной функцией точечно-бисериальной корреляции . Особенно:

  • a i ≅ ρ i t 1 − ρ i t 2

где ρ i t находится точка биссериальной корреляции пункта i . Таким образом, если это предположение верно, то там, где существует более высокая дискриминация, как правило, будет существовать более высокая точечно-бисериальная корреляция.

Другое сходство заключается в том, что хотя IRT обеспечивает стандартную ошибку каждой оценки и информационную функцию , также можно получить индекс для теста в целом, который непосредственно аналогичен Альфа Кронбаха, называемому индексом разделения . Для этого необходимо начать с декомпозиции оценки IRT на истинное местоположение и ошибку, аналогичную декомпозиции наблюдаемой оценки на истинное местоположение и ошибку в CTT. Позволять

  • θ ^ = θ + ε

где θ \тета находится истинное местоположение,и ϵ \Ипсилон является ли ошибка ассоциацией с оценкой. Затем SE ( θ ) )производится оценка среднеквадратичного отклонения ϵ \Ипсилон для человека с заданной взвешенной оценкой и индекс разделения получается следующим образом

  • R θ = var [ θ ] var [ θ ^ ] = var [ θ ^ ] − var [ ϵ ] var [ θ ^ ]

где среднеквадратичная Стандартная ошибка оценки лица дает оценку дисперсии ошибок, ϵ n \epsilon_n, по лицам. Стандартные ошибки обычно производятся как побочный продукт процесса оценки. Индекс разделения обычно очень близок по значению к Альфа Кронбаха.

IRT иногда называют сильной теорией истинного счета или современной теорией ментального теста, потому что это более недавний корпус теории и делает более явными гипотезы, которые неявно присутствуют в CTT.

Смотрите также[править]

Дальнейшее чтение[править]

Многие книги были написаны, которые адресуют теорию ответа элемента или содержат IRT или IRT-подобные модели. Это неполный список, сосредоточенный на текстах, которые обеспечивают большую глубину.

  • Лорд, Ф. М. (1980). Приложения теории отклика элемента к практическим задачам тестирования. МАУ, Нью-Джерси: Эрлбаум.
  • В этой книге обобщена большая часть работы Лорда ИРТА, в том числе главы, посвященные взаимосвязи между ИРТ и классическими методами, основам ИРТ, оценке и нескольким продвинутым темам. Его оценочная глава теперь датируется тем, что она в первую очередь обсуждает совместный метод максимального правдоподобия, а не метод предельного максимального правдоподобия, реализованный Дарреллом боком и его коллегами.
  • Embretson, Susan E.; Reise, Steven P. (2000). Элемент теории реагирования для психологов . Психология Прессы.
  • Эта книга является доступным введением в IRT, направленным, как говорится в названии, на психологов.
  • Baker, Frank (2001). Основы теории реагирования на предмет. Eric Clearinghouse on Assessment and Evaluation, University of Maryland, College Park, MD.
  • Эта вводная книга является одним из пионеров в этой области и доступна в интернете по адресу
  • Baker, Frank B.; Kim, Seock-Ho (2004). Теория отклика элемента: методы оценки параметров (2-е изд.). Марсель Деккер.
  • В этой книге описываются различные модели теории отклика изделия и приводятся подробные объяснения алгоритмов, которые могут быть использованы для оценки параметров изделия и способности. Некоторые части книги доступны онлайн в виде ограниченного предварительного просмотра в Google книгах .
  • van der Linden, Wim J.; Hambleton, Ronald K., eds. (1996). Справочник по современной теории реагирования на предмет . Прыгун.
  • В этой книге представлен исчерпывающий обзор различных популярных моделей IRT. Он хорошо подходит для людей, которые уже получили базовое представление о IRT.
  • de Boeck, Paul; Wilson, Mark (2004). Объяснительные модели отклика элемента: обобщенный линейный и нелинейный подход . Прыгун. .
  • В этом томе представлено комплексное введение в модели реагирования на предметные вопросы, ориентированное главным образом на практических работников, исследователей и аспирантов.
  • Fox, Jean-Paul (2010). Байесовское моделирование отклика элемента: теория и приложения . Прыгун. .
  • В этой книге рассматривается байесовский подход к моделированию отклика элементов. Книга будет полезна для людей (которые знакомы с IRT) с интересом к анализу данных ответа элемента с Байесовской точки зрения.

Пруф[править]

/lertap5.com/Documentation/IRTinLertap5.pdf