そのテスト項目はどれくらい効果的か?項目の判別を簡単に

資格認定機関は、どの候補者が十分な能力を持っているか、そうでないかを判断するために試験を利用しています。試験のスコアは、希望する資格を取得できるかどうかを判断するのに役立ちます。 

まあ、ちょっとした統計的魔法(あまり強調しませんが)を使えば、各テスト項目(つまり質問と回答)がそのような試験の目的にどの程度貢献したかを測定することができます。これが「項目識別」です。 

関連する統計的マジックは、さまざまな統計ツールで実現できます。(以下の簡単な例をご覧ください。) 使用する方法に関係なく、結果は判別指数 (DI) と呼ばれることがよくあります。結果の理論的な範囲は -1.0 ~ +1.0 です。

たとえば、成績上位の受験者が常に正解し、成績下位の受験者が常に間違える項目では、DI は 1.0 になります。 

成績の高い人と低い人が同じ割合で正しく回答した別の項目を考えてみましょう。区別がないため、DI は 0.0 になります。

成績の低い人が常に正しく回答し、成績の高い人が常に間違える項目の場合はどうでしょうか? その DI は -1.0 になります。これは逆の判別になります。 

心理測定学者は、負の DI は無効な問題を示しているとすぐに指摘するでしょう。おそらく、鍵となる部分、つまり正しいはずの答えが間違っているのでしょう。あるいは、問題が古くなっているのかもしれません。いずれにせよ、負の DI は、問題が受験者にとって不公平であることを示しています。

項目と試験の得点は、正または負の方向に完全に相関することはほとんどありません。表1は、DI値の範囲を示しています。 Kryterionの心理測定学者は通常観察します。

表1
差別指数(DI)効率
< 0 (i.e., negative value)無効な測定値
0 – 0.09識別力の低さ
0.10 – 0.14差別が少ない
0.15 – 0.19差別はOK
0.20 – 0.34中程度の差別
0.35以上高い差別
出典: 心理測定サービス、 Kryterion株式会社

差別指数(DI)の計算

DI を計算するには複数の方法があります。ただし、次の非常に簡略化された例で一般的な概念が明らかになるはずです。

10 人の受験者に仮想試験が実施されました。表 2 には、受験者の合計得点が降順でパーセンテージで表示されています。また、質問 1 (Q1) が正解 (R) か不正解 (W) かが示されています。Q1 の DI は、3 つのステップで推定できます。

表2
候補者正解率合計Q1の回答
候補者1100R
候補者290R
候補者380R
候補者480R
候補者570R
候補者660
候補者760
候補者850R
候補者950R
候補者1040

ステップ 1 は、受験者の上位 30% と下位 30% の Q1 の正解数を見つけることです。ただし、この方法では、「上位」と「下位」を定義するパーセンテージは 25% から 50% の範囲になります。

この例では、上位 3 名 (30%) が 3 回正解しました。得点の低い 3 名は、Q1 に 2 回正解しました (2)。

ステップ 2 では、成績上位者の結果から成績下位者の結果を引きます (3 - 2 = 1)。

ステップ 3 では、その結果をいずれかのグループの演奏者数で割ります (1/3 = 0.33)。

Q1 の DI は 0.33 です。つまり、この項目 (上の表 1 を参照) は、高業績者と低業績者を中程度に区別するものです。

DIの大まかな見積もりを得るのは簡単です。しかし、 Kryterion 資格認定試験で使用される項目の項目識別指数を決定するために、より大きな受験者サンプルとより堅牢な方法を推奨します。

この心理測定学的な明快さに新鮮さを感じたなら、同様にわかりやすい P 値に関する議論を再確認することをお勧めします。

テスト開発プロジェクトや資格認定イニシアチブの心理測定ステータスについて質問がありますか?こちらからKryterionの心理測定チームにお問い合わせください

当社の専門家は、明確で役立つ洞察を提供することに特化しています。きっとご満足いただけるでしょう。

購読する

最新情報をお届けします!ご登録いただくと、ビジネスおよび
資格試験業界のニュースや最新情報を定期的にお届けします。配信停止はいつでも可能です。

アセスメント・プログラムをコントロールしよう

もっと情報が欲しいですか?下記のフォームにご記入ください!

アセスメント・プログラムをコントロールしよう

もっと情報が欲しいですか?下記のフォームにご記入ください!