ソリューション
- - - 専門家に相談する
      当社のプラットフォーム、ソリューション、およびサービスは、プログラムの構築に最適です。ぜひ当社のサービスをご利用ください。
      お問い合わせ
実用例
- - - 専門家＆企業
  - - 団体
  - - 専門家に相談する
      当社のプラットフォーム、ソリューション、およびサービスは、プログラムの構築に最適です。ぜひ当社のサービスをご利用ください。
      お問い合わせ
対象業界
パートナー
投稿
- - - ホワイトペーパー
      
      今すぐチェックする
  - - アクセシビリティ
      重要度の高い試験におけるWCAG 2.1およびVPATへの準拠：完全にアクセシブルな認定試験の実施方法
      もっと読む →
  - - 専門家に相談する
      当社のプラットフォーム、ソリューション、およびサービスは、プログラムの構築に最適です。ぜひ当社のサービスをご利用ください。
      お問い合わせ

心理測定専門家による賢いテスト開発ガイド

テスト開発の概要：

クレデンシャル資格認定に慣れていない人は、"クレデンシャル資格認定試験を作成するのは難しいのか？"と考えることが多い。実際、よくある誤解は、試験問題（すなわち項目）を何人かに書いてもらえば準備完了というものである。質の高いクレデンシャル試験を作成することは、実際にははるかに複雑であり、クレデンシャルの目的をサポートし、法的に擁護できる試験を作成するためには、かなり標準化されたプロセスに従う必要がある。

その理由は、資格認定試験がしばしば利害の大きい決定を下すために用いられるからである。ステークスの高い決定とは、受験者者や一般市民にとって意味のある結果をもたらすものである。例えば、資格認定試験のテストスコアは、しばしば、その個人を採用するかどうかの判断に使われる：

自動車やオートバイの路上運転が許可されている。
採用される、昇進する、昇給する。
一般市民を相手に医療行為を行うのに十分な能力と安全性があると判断された場合。

個人がクレデンシャルを取得するか否かは、その人の人生や、時には公共の福祉に重大な影響を及ぼす可能性があることを忘れてはならない。したがって、資格認定試験のテスト・スコアが有効で、信頼でき、法的に擁護できるものであることが重要である。

A Psychometrician's Guide to
スマートなテスト開発

ガイドをダウンロードする

法的擁護性

法的擁護性とは、法的挑戦に耐えるクレデンシャル・プログラムの能力を指す。たとえば、個人または団体が、試験プロセス（試験実施および/または採点など）または試験結果（合格したかどうかなど）が法的に有効でないと主張し、賃金の損失などの損害賠償を求めて訴えることがある。法的な争いは、試験スポンサーにとって大きな損害となる可能性があるため、このガイドに記載されているような試験業界のベストプラクティスが、このような争いの発生を未然に防ぐために守られていることを証明することが重要です。

信頼性

クレデンシャル・プログラムが法的な挑戦に耐えられるかどうかは、テスト・スコアが十分に信頼でき妥当であると考えられるかどうかに左右されることが多い。信頼性とは、試験で一貫した（再現可能な）テスト・スコアが得られるかどうかを指す。言い換えれば、ある受験者が同じ試験を 2 回続けて受験し、再受験の間に何らかの補習を受けなかった場合、信頼性の高い試験であれば、どちらの試験でも同じようなテスト・スコアが得られるということです。資格認定試験であれば、受験者 2回とも合格または不合格になる可能性が非常に高い。信頼性は一般に、試験に含まれる項目の数と、それらの項目の質の関数である。信頼性の証拠は、統計的指標によって提供することができる。

同じ言葉で話そう！

テスト業界では、さまざまなクレデンシャルの概念の意味について多くの混乱がある。これは、クレデンシャルが、学位、卒業証書、免許、認定、認定、および証明書プログラムなど、存在する多くの種類のプログラムに対して使用される包括的な用語であることが一因である。クレデンシャルとは、組織が一定の基準を満たす実体（個人、組織、プロセス、サービス、製品）に正式な承認を与えるプロセスである。

資格認定プログラムの最も一般的な2つのタイプは、免許取得プログラムと認定プログラムである。この2つのプログラムの主な違いは以下のとおりである：

認定制度は任意であるのに対し、免許制度は義務である。
免許が政府機関によって与えられるのに対し、認定は非政府機関によって与えられる。
免許が必要なのに対して、資格は職業を実践したり特定の活動を行ったりするために必要なものではない。

運転免許証は政府機関によって与えられ、特定の種類の自動車を運転するために必要であるため、免許制度の一例である。

妥当性

妥当性の概念はより複雑であるため、ここでは深く説明しません。基本的なレベルでは、妥当性の概念は、テストが測定すると想定されるものを測定しているかどうか、より重要な点では、妥当性の証拠の量と質がテストスコアの意図された解釈をサポートしているかどうかを扱います。妥当性に関して覚えておくべき重要なことは、テスト開発プロセスのあらゆる段階が、テストのスコアに基づいて行う解釈（すなわち、試験に合格した人は、実社会で特定された基準や期待に沿ったパフォーマンスを行う）を裏付ける証拠を集める努力を助けることもあれば、損なうこともあるということです。必要な妥当性の証拠を集めるためには、このガイドで取り上げた各ステップをプロセスに組み込むことが重要であるばかりでなく、各ステップに誰が関与し、どのように各ステップを文書化するかについて慎重に検討する必要があります。

中小企業

テスト開発プロセス全体を通して、対象事項の専門家（SME）、クレデンシャル認定組織の代表者、および心理測定専門家の積極的な関与が必要である。SME を選択する際には、そのクレデンシャルの対象者の重要な属性（職場環境、学歴、地理的位置、専門分野など）の全領域をカバーする経歴、特性および経験を持つ人物を含めることが重要である。ほとんどの場合、クレデンシャルの対象者を代表するグループを形成するには、8～12 人の SME が必要である。文書化に関しては、参加者、使用した方法、および活動の結果について詳細かつ正確な記録を残すことが重要である。心理測定技師が活動の進行役を務める場合は、すべてではないにしても、ほとんどの活動を報告書に記録してくれるでしょう。

このガイドでは、以下の図に示された 10 のテスト開発ステップのそれぞれについて説明します。これらを組み合わせることで、プロセスの基礎的な理解を得ることができます。

本ガイドは、現在のテスト開発のベストプラクティスと必要なリソースの優れた概要を提供するものであると確信しています。皆様からのご意見をお待ちしております。

ステップ1：テストの定義

行き先がわからなければ、たどり着けない可能性がある」ということわざは、特定の試験だけでなく、資格認定プログラムの設計にも当てはまる。

試験の定義段階は、試験開発プロセスの基礎となるもので、おそらくプロセスにおいて最も重要でありながら、最も見落とされている段階です。このフェーズでは、開発に着手する前に、プロセスに関与するすべての人（主要な利害関係者、SME、心理測定士）が、資格認定プログラムと試験の重要な側面について共通の理解を持つようにします。

他のテスト開発活動（例：職務分析、項目作成）に先立ち、テスト定義プロセスを完了させることは重要です。なぜなら、テスト開発プロセス全体を通して意思決定を導き、その意思決定を共通の目標に基づいたものに保つためです。その意図は、より費用がかかり、自由度の低いステップに取り掛かる前に、主要な利害関係者（すなわち、プログラムの方向性に影響を与えたり、変更したりする可能性のある人たち）が、特定のプログラムパラメータ（ターゲットオーディエンスなど）に同意していることを確認することです。そうでなければ、テスト開発プロセスが「動く標的」になってしまい、時間と費用が失われるだけでなく、しばしば質の低い製品になってしまいます。

テスト定義の段階では、参加する中小企業と顧客の利害関係者は、以下のトピック領域に関する決定を下す（リストはすべてを網羅するものではありません）：

検査の目的
テストスコアの意図する解釈
クレデンシャルの対象読者
資格要件または資格取得へのパス
一般的な試験範囲（どのような内容が試験で測定されるべきか、または測定されるべきではないかを高いレベルで示したもの。）
試験実施地域
試験の全体的な構成と形式（パフォーマンス・ベースか非パフォーマンス・ベースかなど）
クレデンシャルの最低資格候補者の定義
その他、試験の性質に影響を与える決定事項（例：ベンダー固有かベンダーニュートラルか、大企業と中小企業などの実務環境など）

最低限の資格しかない候補者

特に重要なのは、クレデンシャルに対する最低資格候補者（MQC）に対する期待を定義することである。MQC は、そのクレデンシャルを取得するために必要な最低レベルの知識と技能を持つ受験者者と考えることができる。SME は、この受験者の概念的な定義、つまり受験者の「ペルソナ」を試験開発プロセス全体を通して使用し、支援します：

どの知識と技能を試験で測定すべきかを決定する、
項目（試験問題）および試験全体の適切な難易度を定義する。
これは基準設定プロセスの不可欠な部分である。

MQCの定義は、試験の性質によって異なるが、一般的には、監督の有無にかかわらず実施可能な職務の種類、経験レベル（例えば、職務時間、ソフトウェアの使用経験時間数、実施件数、手術件数）、教育レベルおよび／または推奨されるトレーニングが含まれる。

試験開発プロセスの最初に、最低限の能力について合意された定義を作成することが不可欠です。そうしないと、試験で間違った種類の知識やスキルを測定したり、試験の目的に対して難しすぎたり簡単すぎたり、間違った受験者が合格または不合格になったり、あるいはそのすべてが起こる可能性が高くなります。

このプロセスの重要性を説明するために、次のようなシナリオを想像してみよう：

ある組織が、初の資格認定プログラムを開発しようとしていた。そのディレクターは、他の資格認定組織で働いた経験があり、プログラムの開発に着手することに安心感を抱いていた。彼女は、統計の実施や試験の合格点／カット・スコアの設定を支援するため、プロセスの後半で心理測定技師を導入する予定であった。

ディレクターは何人かのSMEを集め、試験で何を測定すべきかのアウトラインを作り始めた。そして、試験のドメインと、各ドメインで測定すべきトピックのリストを作成した。これに同意した後、項目の作成に取りかかった。ディレクターは項目作成のガイドラインに精通しており、SMEにトレーニングを提供した。すべての項目を書き終えると、ディレクターはベータテスト用紙を作成し、最初の受験者グループに実施した。

その後、心理測定技師が呼ばれ、ベータテスト項目の統計が行われた。残念なことに、項目分析報告書によると、多くの項目が対象者にとって簡単すぎる（例えば、ベータ版受験者の95％が正解した）ことがわかった。これは、ディレクターが項目を書く前にMQCを十分に定義していなかったためである。

試験がプログラムの目的に沿ったものであるためには、項目の難易度はクレデンシャルの MQC レベルを目指すべきである。この指針がなければ、SME は簡単すぎる問題を作成し、クレデンシャルを保持すべき人（すなわち、必要なレベルで実施するための知識と技能を有する人）と、まだクレデンシャルを保持すべきでない人とを区別する重要な事柄を測定していなかった。

試験内容は？

試験の定義プロセスで行われるもう一つの重要な決定には、試験でどのような内容がカバーされるのか、またはカバーされないのかを高いレベルで定義することが含まれます。試験で何が測定されないかを特定することは、何が測定されるかと同じくらい重要である。しばしば、資格認定プログラムでは、ソフト・スキル（コミュニケーション・スキル、対人関係スキル、倫理（倫理規定が公表されている場合を除く）など）は筆記試験で十分に測定することが難しいため、試験から除外することを選択する。

その他のスキル（プロジェクト管理、記録管理）は、資格認定される職務や専門職にとって中核的なものでも固有なものでもなく、雇用主は既存の他の資格認定プログラムを通じてこれらのスキルを評価することができるため、通常は除外される。試験内容の範囲に関する決定は、さまざまな要因（市場ニーズ、試験開発および保守のためのリソースなど）が影響する。とはいえ、結果として得られる範囲は、受験者およびクレデンシャルの利害関係者にとって明確である必要がある。

その他、試験開発のステップに大きな影響を与える決定には、以下のようなものがある：

試験は国際的に実施されますか？その場合、試験は翻訳され、ローカライズされますか？
技術やツールに関連して、項目の内容はベンダーニュートラル（すなわち、ツールのクラスやタイプ）であるべきか、ベンダー固有であるべきか。ベンダー固有の場合、どのベンダーと製品を含めるべきか。
米国認定機関委員会（NCCA）または米国規格協会（ANSI）のISO/IEC 17024に基づくプログラムの認定を求めますか？
試験にはどのような項目タイプが考慮されますか。これらの項目タイプは、試験実施を検討している試験ベンダーが提供していますか。パフォーマンス試験を検討している場合、これらの項目の開発、実施、維持に必要なリソースを十分に理解しているか。

プログラム・パラメーターの変更にはコストがかかる

数年前、Kryterion ある技術系企業が認定試験の開発を終えるのを手伝うために雇われた。SMEのグループは、その会社の特定の技術に関連する相当数の項目をすでに書いていました。

最初の会議で、中小企業診断士とKryterion 心理測定技師は同社のCEOと面会し、このCEOは、試験を業界ベースの資格とし、したがってベンダーニュートラル（つまり、その企業の技術バージョンに特化しない）とすることを決定した。この重要な決定は試験開発が始まった後に下されたため、既存の項目のほとんどは破棄されるか、ほとんど完全に書き直されることになった。

このため、プロセスのかなり早い段階で、前提条件を明確にし、重要な決定を文書化することが非常に重要なのである。後になって主要なプログラムパラメーターを変更することは、かなりのコストと時間とリソースを要することになる。

ステップ2：職務分析

職務分析調査（別名、実務分析、職務タスク分析、役割の明確化）は、通常、試験開発活動の中で最も費用がかかり、最も好まないものであるが、クレデンシャル・プログラムの品質および法的防御のために絶対的に基礎となるものである。職務分析では、クレデンシャル付与の対象となる職務または専門職を有能に遂行するために必要な重要な職務、知識、および技能を特定する。重要なタスク、知識、およびスキルは、試験で測定される内容と実際に遂行される職務または職務の役割との関連性を示す。具体的には、職務分析

職務や作業、責任、必要な労働者の特性（例：KSA）、労働条件、および／または仕事のその他の側面に関する情報を得るために、ポジションまたは職務クラスを調査することを指す（AERA, APA, & NCME, 2014, p.220.）

職務分析が必須である理由

多くの資格認定プログラムは、職務分析調査の労力とコストが本当に必要なのか疑問に思っている。このプロセスを省略したり、完全に省略したりすることはできないのだろうか？このステップを省略したり、不十分な調査を行ったりするリスクは非常に大きい。市場におけるあなたのプログラムの信頼性は、受験者があなたの試験が、その職業や職務における個人的な経験にどれだけ合致し、妥当性があると感じるかによって大きく左右されます。例えば、資格試験を受けてみて、その内容の多くが実際の仕事に当てはまらないと思ったことはありませんか？適切に実施された職務分析は、受験者や資格保持者の回答から、職務や専門職の焦点を当てるべき側面を特定し、試験製品が彼らの経験と一致するようにするのに役立ちます。このステップを踏まずに試験を作成すると、プログラムが不合格になることが多く、場合によっては資格認定機関に対する法的措置につながることもある。

適切に実施され、文書化された職務分析調査がなければ、作成されるクレデンシャルが実際に職務に関連していることを証明できないため、法的擁護の余地はない。極めて信頼性の高い、または正確な試験であっても、有能な職務遂行能力との関連性を実証できなければ、米国の裁判所で試験に対する異議申し立てに敗訴することになる。さらに、ステークス性の高い資格証明書（就労に必要な資格証明書、昇進や昇給に関連する資格証明書など）の場合、受験者は集団として、特に合格しなかった場合に、法廷で試験に異議を申し立てる理由を探す傾向が強い。

適切に実施された職務分析調査は、試験内容を重要な職務に直接関連付けるだけでなく、資格保持者の人口統計学的に代表的な集団および資格認定された職務や専門職について十分に知識のある他の人々からの意見を確保することによって、試験に対して行われる可能性のある大多数の法的主張から資格認定プログラムを保護する。

優れた職務分析調査の最初の（そしておそらく最も重要な）ステップは、適切な中小企業グループをリクルートすることである。最も重要なことは、SME は、クレデンシャルが付与される職務または専門職を十分に理解していることである。グループとして、SME は、クレデンシャルの対象者（通常 8 人から 12 人の SME を必要とする）のすべての重要な特性を可能な限り代表するものでなければならない。これは、理想的には以下のようなグループを編成することを意味する：

1.地理的に分散している、または少なくとも専門職の地理的な業務領域を代表している。これは、国際的な境界を越えて同じ試験で資格認定を受ける実務家がいる場合に特に重要である。場所による実務の違い（例えば、法的枠組み）が予想される地域は、SME フォーカス・グループに代表者を含めるべきである。

2.専門職における経験が多様である。専門分野や仕事の現場が異なれば、有能な実践の核となるものを正確に特定するためのプロセスに、さまざまな見解がもたらされる。これは、専門職の経験の長さにも当てはまる。

3. その他の属性、特に保護されるべきクラス（年齢、人種、民族、性別など）において、可能な限り多様であること。特異な社会的レンズの下で作成された試験は、特に結果の格差の影響を争点とする場合、より精査されやすくなる。

注意すべき物語

利便性（例えば、最も近くにいる身近な中小企業）に基づいて中小企業のグループを集めたくなることもあるが、このアプローチには悲惨な結末が待ち受けている可能性がある。次の例は、この点をよく表しています：

ある情報技術資格のマネージャーは、短期間で職務分析調査を完了し、改訂試験を作成するよう迫られていた。期限に間に合わせようと、彼は急いで職務分析会議を予定し、製品所有者／管理者や、製品について詳しい知識を持つ人たちを招待した。彼は、典型的な製品ユーザー、特に資格認定される職務を十分に理解したグループを持っていなかった。その結果、あまりにも高度で、クレデンシャルの対象者には関係のない問題が出題された。受験者は、試験に関連性がないと不満を漏らし、多くの受験者がクレデンシャルを取得できなかった。職務分析研究をやり直し、試験項目の多くを差し替えなければならなかった。

この例では、職務分析と試験をやり直さなければならず、時間と費用が無駄になっただけでなく、認定プログラムの信頼性も損なわれた。

しかし、職務や専門職をより包括的に研究し、試験内容の決定に多様な視点を取り入れ、試験において職務や専門職を可能な限り最もよく表現するために、努力する価値は十分にあります。

職務分析のステップ

職務分析調査の完了には通常3～4カ月を要し（場合によってはそれ以上かかることもある）、一般的に以下のステップが含まれる：

職務分析会議の準備のための文献調査
職務分析調査の内容作成会議
職務分析調査のパイロットテストと完了
対象候補者への調査実施とデータ収集
調査結果のデータ分析
データ結果を確認し、試験内容を決定する会議

前述したように、優れた職務分析調査を実施するためには、多くの準備作業が必要です。文献調査において、心理測定士は他の調査に加え、あなたからの情報を収集し、職務内容、タスク、スキル、基礎知識について、その職務や職業がどのようなものかを大まかに把握します。この情報をまとめ、中小企業診断士のグループに提示します。中小企業診断士は、内容を検討し、追加を提案し、無関係な内容を検討対象から外します。

このプロセスの最終目標は、資格対象者のより多くのサンプルに配布する職務分析調査（職務に関連する内容のリストといくつかの背景情報の質問を含む）を作成することである。

タスク、知識、スキルのリストを作成するプロセスでは、同僚間でコンセンサスを得るためにかなりの議論が必要になることがあるため、SMEとの職務分析ミーティングは、2.5日間の直接ミーティングとして開催することを推奨します。対面でのミーティングが難しい場合は、このプロセスを一連のウェブ会議を通じて行うこともできますが、対面でのミーティングによる成果物に比べ、はるかに時間がかかり、成果物の質も多少低下することがよくあります。

職務分析調査

職務分析調査の内容（すなわち、業務、知識、技能、および背景情報の質問）が最終的に決まったら、見落とされている可能性のある業務、技能、または知識を探すために、クレデンシャル対象者の少人数グループで調査をパイロット実施する。パイロット・テスト後に修正が行われる。次に、アンケートをクレデンシャル対象者のより広いサンプルに配布する。対象者を十分に代表する大規模なサンプルを得ることができるような調査配布計画を立てることが重要である。

必要な完了調査票の総数は、対象者の規模によって異なりますが、全人口を適切にサンプリングするには、使用可能な調査票が400枚近く必要になることがよくあります。

可能であれば、アンケート受信者の名前とEメールアドレスがあると、まだアンケートに回答していない人にリマインダーをカスタマイズして配信することができるので便利です。

職務分析調査では、受審者は、実際の職務遂行における各職務関連タスク、知識、スキルの重要度、頻度、および／または重要度を評価するよう求められる。その目的は、資格保持者に期待される主なタスクおよびそれを支える知識およびスキルを特定することである。適切に実施された職務分析の結果は、個々の職務の重要性、それらが実施される頻度、および有能な職務遂行のための基礎となる知識およびスキルの重要性を示すデータを提供する。職務分析のアンケートは長くなりがちなので、少なくとも3週間はアンケートを実施し、アンケートに回答するためのインセンティブ（継続教育単位、抽選など）を提供するとよい。回答率が低い場合は、調査データの収集期間を延長する必要があるかもしれない。

調査データは、心理測定専門家により洗浄・分析された後、その結果が期待されるパフォーマンスを表していること、およびサンプルが対象者全体を適切に表していることを確認するために、中小企業診断士による徹底的なレビューが行われます。このレビューは、通常ウェブ会議を通じて行われ、調査データに基づいて、各職務、知識、スキルを試験に含めるべきか、含めないべきかについて、データに基づいた最終的な決定が行われます。

試験で測定される重要な知識および技能は、1 つまたは複数の重要な職務と関連付けられている。要するに、これによって、対象者全体で広く行われており、専門職の中で有能な実践のために重要であるとみなされる（すなわち、妥当である）職務のリストと、その職務を有能に遂行するために重要であるとみなされる知識と技能のリストが作成されます。最終的な内容のリストは、妥当性が確認されたテストの設計図の基礎となります。優れた職務分析調査では、能力を証明するために何を測定する必要があるのか、また、それらをどのように測定すべきかを示す、試験設計図の内容が作成されます。

A Psychometrician's Guide to
スマートなテスト開発

ガイドをダウンロードする

ステップ3：ブループリントのテスト

試験の設計図（別名、試験仕様書、試験計画書、試験内容の概要など）は、資格認定試験の基礎となる文書であり、各試験がどのように構成されるかのロードマップを提供する。これには、試験で測定する具体的な内容、総項目数、各内容領域またはトピックにおける項目数、各認知的複雑さレベルにおける項目数（該当する場合）、使用する項目形式またはタイプ（多肢選択式、マッチング式など）などの重要な情報が含まれます。

試験設計図は、職務分析調査の結果と中小企業からの意見に基づいて作成される。このプロセスは通常、心理測定専門家によって指導され、（職務分析データに基づいて）試験設計図の草案の重みを計算した後、SME および資格認定機関の代表者とウェブ会議を行う。

職務分析調査と同様に、このプロセスでは、クレデンシャルの対象者を代表する 8～12 人の SME のグループが必要である。テスト設計図の作成プロセスの目標は、妥当な推論と信頼性の高い測定を行うテストである。テスト・ブループリントは、内容領域がクレデンシャル取得者の有能な実践に対する重要性（すなわち、知識および／またはスキルの使用頻度、または知識および／またはスキルを適切に適用しない場合の潜在的な結果）に従って重み付けされることを保証する。

さらに受験者は、受験準備のために試験計画書を使用します。試験計画書の内容領域またはトピックは、不合格となった受験者に試験結果をフィードバックするための枠組みを提供します。

最後に、試験開発者は、各試験形式が職務分析調査で検証された内容と同じ幅と深さで作成され、すべての受験者に等しい割合でその内容がサンプリングされるように、試験設計図を使用します。たとえば、資格認定プログラムが複数の試験形式を作成し、同じ期間にわたって実施する場合（ある受験者は試験形式 A に、ある受験者は試験形式 B に割り当てられる）、試験設計図を使用することで、両方の試験形式が同じ内容を同じ割合で、同じ種類の項目で同じように表現することができます。

これによって、受験者がどのような試験形式を受けようと、同じ職務関連の主題について試験を受けていること（すなわち、公平性）、およびクレデンシャルの決定が、有能な職務遂行に関連する知識と技能の公平なサンプルの結果に基づいていること（すなわち、妥当性）が保証される。この同じ概念は、一度に単一の試験形式しか提供しないプログラムにも適用される。各新規または改訂された試験形式は、すべての受験者にとって公平で一貫した試験プロセスを保証するために、試験設計図の要件を満たさなければならない。

ステップ4：アイテム開発

試験項目の作成は、見かけほど簡単ではありません。受験者が職務や特定の職務を適切に遂行する能力を測定する目的で項目を作成するには、かなりの時間と労力が必要ですが、多くのプログラムでは見過ごされています。ほとんどの項目作成者は、項目を書くことは受験者が知っているべきことを決定し、それについて直接質問すればよいと考えています。

その結果、正解するには丸暗記が必要で、受験者者のトピックに対する真の理解や、職務を遂行する際にそのトピックがどのように適切に適用されるかを評価することができない、主に定義的な項目が数多く出題されることになる。さらに悪いことに、これらの項目は通常、資格認定プログラムの主な目的である、真に有能な者とそうでない者を分けるのに適していない。

暗記はプロフェッショナルではない

経験則によれば、研修資料を丸暗記するだけで試験に合格できるような人は、認定や免許取得の目的には使うべきではないだろう。一般に、認定試験や免許試験は、記憶の保持ではなく、実践的な知識や応用知識に重点を置くべきである。

もう一つの誤解は、受験者を「騙して」不正解を選ばせるような問題を書くことが目的だというものです。それとは逆に、最低限の資質を持つ受験者（MQC）が、資質や能力の低い受験者よりも正解を選びやすいように、明確に書かれた項目を開発することが目標なのです。

項目作成には微妙なバランスが必要です。ライターは、受験するMQCをターゲットにした項目に磨きをかけると同時に、彼らの能力レベルを評価する項目を書かなければなりません。新しい項目作成者は、特定の職務に関連した内容に焦点を当て、望ましい難易度や複雑さを反映し、受験者の能力測定に不要な誤差を生じさせない正確なパフォーマンス測定となるような項目を作成できるようなトレーニングを受けていないことが多い。

その結果、正解を強調したり、ヒントとなるような微妙なヒントを問題に書き込まないようにする方法を熟知していないことになります。また、トレーニングの不足は、受験者が実力ではなく、受験戦略に基づいて試験に合格できるような項目を不用意に作ってしまう可能性もあります。"テストワイズ "と呼ばれる「受験戦略」をトレーニングするプログラムについて聞いたことがあるかもしれません。テストワイズに長けた受験者は、たとえそのテーマについて何も知らなくても、正答を決定するために不十分な記述項目を簡単に精査することができます。

このようなことができるのは、初心者の問題作成者が、うっかり正解への微妙な手がかりを問題文に残してしまったり、明らかに間違っている、魅力に欠ける、あるいはユーモラスな答えの選択肢を書いてしまったりして、正解をより目立たせてしまうからです。

資格認定試験で質の高い試験内容を作成するには、項目作成者として訓練された SME のグループが不可欠です。SME は、有効な項目を作成するために必要な試験内容に関する知識を持ち寄ります。そして、心理測定技師は、対象集団に適した複雑さと難易度で、設計図にある職務に関連する 1 つの内容に焦点を当てた項目を作成できるよう、SME を訓練します。このようにして、個々の小項目からなるアイテムバンクが形成され、テスト設計図に定義された受験者のコンピテンシー全体をサンプリングします。

また、研修では、受験者に正解のヒントを与えたり、項目の言葉遣いやトーンによって受験者の意図しない注意をそらしたり、すでに一般に自由に利用できる項目（受験者が学習に使用する参考資料など）を使用したりすることを避けるための項目作成テクニックについても学びます。このようなトレーニングは、資格認定プログラムが受験者の能力を正確に測定する質の高い項目を開発するのに役立つだけでなく、情報の暗記だけを測定するために書かれた項目よりもはるかに忠実度の高い項目を提供する。

トレーニングは通常、項目作成ワークショップの形をとるが、これには2つの方法がある：

ウェブ会議を通じて行われるオンライン・トレーニング・セッションでは、SMEが質の高い項目を作成するための「やるべきこと」と「やってはいけないこと」を指導し、その後、項目バンクにアクセスして、事前に割り当てられたターゲットに従って項目の作成を開始します。
対面式のトレーニング・セッションの後、ワークショップを開催し、SMEが協力し合い、より多くのコーチングやフィードバックを受けたり、項目作成のニーズについてリアルタイムの最新情報を得たりできるようにする。

商品レビュー

しかし、受験者の能力を適切に測定する質の高い試験を実施するためには、単に良い項目を書けるように項目作成者を訓練するだけでは十分ではありません。各項目は、項目作成ガイドラインに準拠していること、問われていることを明確に伝えること、クレデンシャル対象者のどのサブグループにとっても不快でないこと、または気が散らないこと、文法的に正しいことなどを確認するために、心理測定および文法編集から始まる徹底的な審査プロセスを経る必要がある。すべての項目は、SME のグループによるレビューも受ける必要がある。SME は、以下の項目についてまとめてレビューする必要がある：

テストの設計図にある知識・技能との整合性
技術的な正確さ
採点精度
クラリティ
練習の重要性
難易度の適切さ
不正解の選択肢（＝ディストラクター）の妥当性

新しく書かれた項目が上記の基準を満たさない場合、基準を満たすようにさらに改訂する必要があるか、受験者に実施される前に使用を中止する必要があります。もし項目が基準を満たしている場合は、採点されていない項目として実際の受験者に実施し、採点されたテスト項目として使用できるかを確認するための測定統計を取るか、さらなる改訂（または引退）が必要であることを示唆する必要があります。

このプロセスの詳細については、ベータテストのセクションで説明します。重要な点は、試験項目が職務に関連した能力を確実に測定できるようにしなければならないということです。すべての項目の性能が高ければ高いほど、受験者に合否を判定する際の精度が高くなります。

これらの重要な項目開発ステップのいずれかを省略した場合、その項目には常に重大なパフォーマンス上の問題が生じます。このような問題は、試験の妥当性と信頼性に影響を及ぼし、多くの場合、組織は厳しく危険な決断を迫られることになります。

驚くほど柔軟な多肢選択式項目

多肢選択式試験は、受験者が職務においてどのようなパフォーマンスを発揮するかを予測する上で、パフォーマンス・テストよりも劣っていると批判されることがある。多くの資格認定プログラムは、複雑な行動や判断の測定における多肢選択式項目形式の柔軟性を過小評価している。多肢選択式項目は、パフォーマンスをテストするために使用することができる。簡単な例として、ファイナンシャル・プランナーの資格認定を受ける受験者に、顧客の株式売却に伴う税負担を計算するよう求める計算問題がある。

あなたの顧客が株式を売却した。長期キャピタルゲインは5,000ドルです。税率を15%とした場合、この売却に対するあなたのクライアントの納税義務はいくらになりますか？

$150
$500
$750
$1250

単純ではあるが、この例は、より複雑なタスク、例えば状況を評価して判断を下す、データに基づいて医学的判断を下す、決められたタスクに適切な道具を選択する、などに関する多肢選択項目でできることを表している。これらはすべて、有効で定義された答えと、多肢選択項目に入れることができる不正解があります。これらの例の唯一の違いは、受験者者に提示されるタスクの複雑さである。

アイテム・フォーマットとアイテム・ライターの比較

多肢選択式項目フォーマットに対する軽蔑は、そのよくある誤用から生じている。あまりに頻繁に、経験の浅い項目作成者が間違ったことを測定する多肢選択式項目を作成し、項目作成者ではなく多肢選択式項目の形式が非難される。

例えば、受験者が問題のトラブルシューティングを正しく行えるかどうかを測定する項目があるとします。受験者が状況を通して考え、根本的な原因と解決策を特定する能力を示すことを要求する項目を設計するよりもむしろ、訓練不足の項目作成者は、根本原因分析のステップを思い出す受験者の能力を評価する項目を開発するかもしれません。

受験者は試験を受けるが、その項目は特定のシナリオの中で問題を特定するという実際のタスクを実行する能力を測定するものではなく、試験は受験者がタスクを実行する能力を測定する信頼性を失うが、内容の複雑さに対する不十分な評価ではなく、多肢選択式の項目形式が非難される。

職務分析のセクションを思い出してください。あなたの商品としての試験の質と市場におけるあなたの信頼性は、受験者があなたの試験がその職務や職業における個人的な経験にどれだけ合致し、妥当性があると感じるかによって大きく左右されます。

多肢選択式の項目は、試験中に実際にその行動を要求することはできなくても、受験者が実際にその行動を行うのをできるだけ観察して、目標とする行動を測定するように書くことができます。これは、受験者に現実的なシナリオを提供すること、および/または、職務上のタスクの実行に役立つデータを提供することで達成することができます。受験者には、プロセスの次のステップはどうあるべきか、不足しているステップは何か、あるいは入手可能な情報に基づいて判断するよう求めることができます。

受験者が自分の経験に基づき、要求される行動を精神的にやり遂げることを要求される場合、暗記したものを単純に思い出すことは（不可能ではないにしても）まず不可能です。そうすることで、受験者は複雑なタスクの実際のパフォーマンスを反映した形で項目に答えることができるのです。このようにするために書かれた項目は、より微妙な選択肢や複雑な項目ステムが必要になる可能性があるため、書くのが難しくなります。しかし、多肢選択式の項目フォーマットは、複雑なタスクの実際のパフォーマンスに近い測定値を作成するために使用することができます。

A Psychometrician's Guide to
スマートなテスト開発

ガイドをダウンロードする

ステップ5：ベータテスト

ベータテストの目的は、新しく書かれた項目や改訂された項目について、十分な量の受験者の回答データを収集し、そのパフォーマンスを統計的に分析し、運用試験または「本番」の試験で採点項目として使用すべきかどうかを判断することです。これは、一定の心理測定基準を満たした項目のみが、実技試験の採点項目として使用されることを確実にするための品質管理手段です。ベータテストはまた、受験者の得点判定に使用する前に、項目の基本統計量を確立し、どのように項目を改善すべきかを特定するためにも使用されます。

ベータテストの段階を開始するには、SME が職務遂行能力を測定するのに有効であると判断した、新しく書かれた、または改訂された項目が必要です。すべての項目が合格となるわけではないので、運用試験に十分な数の合格項目を確保するために、余分な項目（通常、運用フォームに必要な項目の 33～50％増）をベータテストする必要があります。ベータテストから得られた項目の統計は、今後その項目をどこでどのように使用すべきかの決定に役立ちます。例えば

その項目が項目統計学的に問題がなく、内容的にも問題がなければ、運用テストフォームの採点項目として使用することができます。
項目の統計に問題がある場合、その項目を修正することができる。

項目に対する回答パターンを変更し、より良い統計値を得る（つまり、項目の内容を調整して難易度を変えたり、精度を上げたりする）。注意すべき点は、ベータテスト後に項目を変更した場合、再度ベータテストを行う必要があるということです。これは、項目の内容を変更することで、受験者の回答方法が変わり、その結果、統計的なパフォーマンスに影響を与えるからです。

通常、ベータテストは2つの方法のいずれかで実施するのがベストである：

1.ベータ試験は、未使用の全項目（または多くの割合の項目）を含むテストフォームを実施し、そのテストフォームのベースライン・パフォーマンスを確立するものです。通常、これは新しい試験や、合格点やカットスコアが設定されていない試験にのみ行われます。また、この方法で作成されたテスト用紙は、採点するのに十分なパフォーマンスを示さない項目を考慮するため、テストの青写真を満たすために明示的に必要な項目数を3分の1から2分の1ほど上回ります。これにより、運用フォームの最終的な採点項目を作成し、ベータ参加者の得点を計算する際の意思決定に、ある程度の幅を持たせることができます。この方法では、ベータ参加者の採点は、テストフォームが最終化され（すなわち、テストの設計図に合致する採点項目が特定され）、合格点/カット点を設定するための基準設定調査が完了するまで、数週間延期されます。そのため、結果が出るまでの現実的なスケジュールを伝えることで、ベータ参加者の期待を適切に管理することが重要です。

ベータ試験Q&A

ベータ試験はどのように実施されるのですか？

ベータ試験は、運用試験と同じ種類の試験環境で実施する必要があります。例えば、運用試験がプロクター環境で実施される場合、ベータ試験も同様に実施されるべきです。

誰がベータテストに参加すべきでしょうか？

ベータ試験の参加者は、経験レベル、訓練、練習環境などの点で、そのクレデンシャルの対象者を代表するものでなければならない。多くの組織は、クレデンシャルの実際の受験者を使用している。これが不可能な場合、受験者は可能な限りターゲットとなる受験者に近い者であるべきである。

理想的には、ベータ参加者の約 70 パーセントは、その資格の最低有資格者（MQC）（すなわち、試験にギリギリ合格するような人）のプロフィールに可能な限り類似している必要があり、ベータ受験者の 15 パーセントは最低有資格者よりも低い（しかし、トピック領域についてはまだ知識がある）人であり、残りの 15 パーセントは最低有資格者よりも高い（例えば、主題専門家レベル）人である。このことが重要な理由は、古典的なテストの統計はサンプルに依存するためです。つまり、受験者の多くが、最低限の能力しか持たない受験者よりも、専門知識のレベルが著しく高い、または低い場合（ステップ1：テストの定義を参照）、統計結果が多少偏る可能性があります。言い換えれば、MQC の場合、項目が実際よりも簡単に見えたり、難しく見えたりして、運用テストフォームから不適切に除外される可能性があります。

ベータ受験者の専門知識および/または経験のレベルやその他の重要な特徴を把握することは、合格スコアの決定プロセスにおいて、この情報を追加データポイントとして考慮するのに役立ちます。別のプロセスでベータ受験者の情報が収集されていない場合は、ベータ試験にアンケートを含めることで、これらのデータを収集することができます。

ベータ参加者は、結果をどのくらい待たなければならないのですか？

ベータ受験者が結果を受け取るのは、多くの場合、ベータテストのウィンドウが閉じてから6～8週間後です。十分な量の受験者の回答データを集めるのに時間がかかる場合、ベータテストのウィンドウの最初に受験したベータ参加者は、結果を受け取るまで数ヶ月待たなければならないかもしれません。

ベータ試験への参加者を増やすための戦略はありますか？

ベータ試験は、通常、運用試験よりも多くの項目で構成されているため、試験スポンサーは、ベータ試験参加者を募集するために、受験料の割引やその他のインセンティブ（例：コースや学会の入場料の割引）を提供することがよくあります。また、ベータ試験の目的と重要性を伝えることも有効です。

2.アイテム・シーディングでは、少数の未使用・未採点のアイテムを「本番」のテスト・フォームに配置する。一般に「項目シード」と呼ばれるこの方法は、確立された資格認定プログラムが継続的に項目バンクを補充するための業界のベスト・プラクティスである。各試験フォームに含まれる未採点項目の数は、新しいフォームを作成するために必要な項目の数、将来使用するための代替項目のバンクを構築する必要性、および／または古い採点項目の継続的な交換によって異なる。未採点の項目が受験者に実施された後、その統計的なパフォーマンスが評価され、後日採点済みの項目として使用するために卒業されるか、改訂のために送り返され、再度ベータテストが行われます。ベストプラクティスは、ベータ項目を特定しないことです。そうすることで、受験者はその項目が得点に貢献し、正確なデータが得られるかのように回答します。この方法によって、受験者の得点や結果を遅らせることなく、次のテスト用紙で項目を置き換えることができます。また、以前の基準設定調査や統計的等化手順によって決定された合格点/カット点を維持することができます。この方法を使用する場合、受験者が追加項目に対応するための十分な時間を確保するために、試験時間を延長する必要がある場合がある。

クレデンシャル・プログラムは、テスト開発ライフサイクルのさまざまな段階で上記の各手法を採用する。新規に開始するクレデンシャルプログラムでは、新規に開発した項目をすべて使用することになるため、最初の方法を実施する必要がある。また、職務分析を終えたばかりのクレデンシャル・プログラムでは、新しいテスト設計図に対応するために多くの項目を開発した場合、最初の方法を利用する必要があるかもしれません。新しいテスト・ブループリントのもとで最初のテストフォームで合格／カット・スコアが決定されると、クレデンシャル・プログラムは通常、ベータテストの第 2 の方法に移行する。新項目のベータテストを継続しないことを選択したプログラムでは、「余分な」使用可能項目が不足しがちです。この「余分な」使用可能項目は、本番の書式上の項目内容が侵害されたり、（技術や規制などの変化により）正確でなくなったりして、差し替えが必要になった場合に必要となる可能性があります。優れたベータテスト・ルーチンは、問題のある項目を特定し、再試験を回避し、新しい試験内容の安定した流れを維持するのに役立ちます。

ステップ6：項目分析

各試験項目の質は、項目の統計的分析が行われない限り、真に知ることはできません。中小企業は、どの項目が望ましい難易度で測定されるかを確実に予測することはできませんし、高得点の受験者と低得点の受験者をよく識別することもできません。これは、（業種を問わず）項目の約3分の1が望ましい結果を示さないという事実が証明しています。

ベストプラクティスは、ベータテスト後に統計分析を実施し、採点項目として使用する前に、項目が問題なく実施されていることを確認すること、また、定期的に実施し、過度の露出（例えば、不合格者や再試験者を含む多数の受験者に実施されること）や特定の項目に影響を与える変更（例えば、規制の変更、業界の変更）に応じて項目や試験のパフォーマンスが低下しないことを確認することである。

項目の質を評価する場合、その項目が受験者にとって公平であり、異なる資格レベルの受験者を区別するための有用な測定データを提供することを目標とする。

ほとんどの資格認定プログラムでは、項目のパフォーマンスを評価する際に、主に2つの古典的テスト理論（CTT）統計が使用される。なぜなら、クレデンシャル試験の目的は、クレデンシャルの範囲およびレベル（すなわち、これが試験の測定ポイントである）に関連して最低限の能力を発揮するために必要な知識および技能を持つ受験者を識別することであるからである。

CTTとIRT測定

項目や試験の統計分析に用いられる測定理論には、古典的テスト理論（CTT）と項目反応理論（IRT）の2つがある。CTT分析の主な利点は、受験者数が少ない試験（例えば、受験者数が200人以下）でも実施できることです。もう1つの利点は、CTT統計の解釈が容易であることです。この方法の最大の批判点は、結果が標本に依存すること、つまりデータが分析に含まれた特定の受験者の特性によって結果が影響を受けることです。つまり、ある受験者グループが特に準備万端であった場合、準備不足の別の受験者グループの場合よりも項目が簡単に見える可能性があります。

これは、ベータ試験の項目を評価するためにCTT分析を使用し、ベータ試験の参加者が試験の対象者を代表するものではない場合（例えば、組織がベータ試験の参加者としてすでに認定を受けた人や、認定を受ける資格を満たしていない学生を使用した場合）に、特に懸念されることです。

IRT分析はより複雑であり、分析を適切に行うためには専門的なソフトウェアと知識が必要である。IRT分析には、より多くの候補者数と、使用するIRTモデルの統計的仮定に適合するデータも必要です。心理測定専門家による推奨は、このタイプの分析のための最小候補者数について様々ですが、使用するIRTモデルによって、しばしば200から500候補者の範囲です。

IRT分析の主な利点は、分析が標本に依存しないこと、つまり分析に含まれる特定の受験者の特定の特性に結果が依存しないことです。さらに、この分析では受験者者の能力と項目の難易度を同じ尺度に置くことができるため、より正確な認定判定に役立ちます。

アイテム差別

項目の識別統計量は、良好または許容範囲にあるべきです。理想的な項目判別は、試験の成績が良い受験者（試験で高得点を獲得した受験者）のほとんどが項目に対して正しい回答を選択し、成績が悪い受験者（試験で低得点を獲得した受験者）のほとんどが項目に対して正しくない回答を選択したときに達成されます。

テストフォームの項目を選択する場合、難易度が望ましい範囲にあり、識別統計が良好な項目が最初に選択されます。テスト設計図の要件を満たす前に、これらの「良い」項目を使い果たした場合、理想的な項目よりも簡単または難しい項目、または理想的な項目識別力よりも低い項目を含める必要があるかもしれません。

十分な信頼性があり、評価の測定目標をサポートするテストフォームを確保するためには、理想的でない統計値を持つ項目の数を最小限に抑えることが重要です。

成績が良くなかった項目については、項目の統計が問題を判断するための有用な道しるべとなります。時には、問題の紛らわしさが、受験者にキーとの間に細かすぎる区別を要求し、問題を非常に難しくしていることがあります。また、キーが意図されたよりも受験者に明らかであったり、注意散漫が明らかに間違いすぎたりして、項目が簡単すぎる場合もあります。

オプション分析

オプション分析は、各パフォーマンスグループの受験者の回答パターン（例えば、高得点の受験者がどの回答オプションを選択しているか）を特定するもので、項目のパフォーマンスが低い理由を突き止めるのに特に役立ちます。この点を説明するために、ある項目のオプション分析を次のページに示します：

オプション分析では、項目に関する具体的な問題を中小企業に提起し、その項目を修正・改善できるかどうかを確認することができる。

中小企業診断士は、B が正しいか部分的に正しいか、ステムの何かが一部の高得点受験者に B を正解と思わせているか、あるいはその他の説明（例えば、業界に変化があったか、項目に影響を与えた規制）があるかどうかを評価することができる。
D と答えた受験者はいなかったので、中小企業診断士は D に対して、より妥当なディストラクタを思いつくようにすべきです。
C を解答した受験者はほとんどいなかったので、中小企業診断士は C に対してもより妥当なディストラクターを書くようにした方がよいでしょう。

すべての項目が、改訂に必要な労力に見合うものではないことに注意してください。実力を発揮するために決定的に重要でない概念を測定している項目や、受験者の大半が遭遇しない項目は、受験者の実力に関する貴重な情報に貢献しないため、おそらく削除されるべきです。重要な概念を測定しているにもかかわらず、難しすぎたり、改善が必要な解答の選択肢が1つか2つしかないような問題のある項目は、多くの場合、中小企業診断士によって簡単に修正することができます。

ベータ試験または運用試験）実施後に項目を改訂した場合、その改訂が項目のパフォーマンスにプラスに影響したか、マイナスに影響したかを確認するために、再度ベータ試験を行う必要があります。誤字脱字を修正する以上の項目の修正は、受験者がその項目に対してどのように反応するか（例えば、項目の難易度や、成績の良い受験者と悪い受験者がどの解答選択肢を選ぶか）を変える可能性があります。

A Psychometrician's Guide to
スマートなテスト開発

ガイドをダウンロードする

ステップ7：フォームの作成

新しい試験用紙は、常に試験設計図のすべての要件を満たすように組み立てられなければなりません。この青写真を遵守することで、受験者一人一人が（どの試験用紙を受け取ったとしても）、他の受験者全員と同じ職務に関連した内容で測定されることが保証されるのです。例えば、テスト開発というトピックについて、次のような設計図を考えてみましょう：

上記のテスト設計図の例では、各テスト用紙に合計 100 項目が必要であることを示しています。さらに、各テスト用紙では、これらの100項目を3つの内容領域またはトピックに分けることが特に要求されています：領域 I をカバーする 40 項目、領域 II をカバーする 40 項目、領域 III をカバーする 20 項目です。さらに、各領域内の項目の総数は

は、認知レベルの分類によって細分化されており、新しいテストフォームを作成する際にも一致させる必要がある（例：領域Iでは、10個の想起項目、20個の分析項目、10個の総合項目）。

複数のテストフォーム

テストの設計図の要件を満たすことに加え、テストフォームの難易度や性能が同程度であることも望ましい（例えば、信頼性、判定一貫性、標準誤差の統計量が同程度であること）。

ほとんどの場合、新しいテスト用紙の作成は手作業で行われ、テスト設計図にある各領域と認知レベルの組み合わせをカバーするために、最も質の高い項目を選択する必要があります。各テスト用紙の項目は、他の項目の解答方法のヒントを与えてはならず、他の項目とまったく同じ知識を測定してはなりません（「敵項目」と呼ばれます）。また、テスト用紙に採点項目として含まれるすべての項目は、防御可能な統計を持っていなければなりません。今述べたプロセスは、最も一般的なタイプのテストフォームである固定線形フォームを作成するために使用されます。

固定線形フォームを使用する場合、同じテストフォームを受け取る受験者は、すべて同じ項目を受け取りますが、項目（および解答の選択肢）は、受験者ごとにランダムな順序で配信される可能性があります。このプロセスを自動化するテストフォーム作成手法（例：LOFT、CAT）もありますが、これらの手法を適切に機能させるためには、固定線形フォームよりもはるかに大きな項目バンクと、膨大な量の項目特性文書、および/または項目応答理論（IRT）のような高度な統計モデルが必要になります。(ステップ6「項目分析」のIRT/CTTに関するサイドバーを参照。) 通常、これらの手法は、コストおよびその他のリソース要件のため、より大規模なプログラムで使用される。

テスト・セキュリティ

使用される書式作成方法は、試験の安全性の考慮およびクレデンシャル・プログラムのその他の要因（例：年間受験者数、項目およびテスト開発の実際的な制約）に依存する。ほとんどのクレデンシャル・プログラムは、少なくとも 2 つの固定線形試験フォームを同時に作成し、維持することを望む。

このことが重要な理由はいくつかありますが、一番の理由はテストの安全性を高めることです。項目の内容が大きく異なる少なくとも2つの試験用紙を同時に使用することで、各項目が試験用紙に表示される回数が減り（つまり、受験者が各項目を見る回数が減る）、項目の交換が必要になるまでの期間が長くなります（受験者は、たとえあなたがテストについて話すなと言ったとしても、テストについて話します）。

さらに、テストのセキュリティ侵害が発生した場合、2つのテストフォームのうち1つだけが侵害される可能性が高くなり、代替フォームの開発中にテストを継続することができます。

公正なテスト

試験の安全性を高めるだけでなく、2 つの試験形式を同時に実施することで、受験者に公平な試験を実施することができます。前述したように、両方のテストがテスト設計図に正確に一致している場合、すべての受験者は職務に関連する同じ内容のサンプリングで評価されます。

しかし、すべての受験者が1回目の受験で合格するわけではないので、2回目の同時受験フォームを用意することで、受験者はまったく同じ項目を再度見ることなく、少なくとも1回は再受験することができる。これは、受験者が同じ項目を記憶して回答することを防ぐことによって測定誤差を減らし、また再受験者が初回受験で合格した受験者よりも本質的に有利にならないようにするものである。これはすべて、受験者の能力を公正に評価し、試験結果に自信を持つという目標を支えるものである。

ステップ8：基準設定

基準設定調査とは、ある試験形式の合格点またはカットスコアを選択し、受験者の合否判定のすべての変曲点とするプロセスである。カット・スコアが擁護できるものであるためには、カット・スコアを、能力の最低基準をギリギリ満たす受験者の理論的な試験成績と結びつける、基準参照の方法論が使用されなければならない。

アンゴフ・メソッド

基準を参照した基準設定方法（例：修正アンゴフ、ブックマークなど）は複数あるが、資格試験のカット・スコア（複数可）を導き出すために、修正アンゴフ手順が最も頻繁に使用されている。

故ウィリアム・アンゴフにちなんで名付けられたこのアンゴフ・プロシージャーは、人口統計学的に代表的な中小企業の委員会（例：地理的、経験的）に、試験で最低限の成績基準をギリギリ上回る受験生が何を知り、何をすることが期待されるか（すなわち、最低限の資格を持つ受験生のプロフィール）について合意を得るよう求めるものである。

このプロセスに関する研修とキャリブレーションを行った後、中小企業診断士は、最小限の資格しか持たない受験者（MQC）の理論的プロフィールを用いて、各項目を正解すると予想されるMQCの割合（アンゴフ・レーティングと呼ばれる）を推定するよう求められる。これは、試験の各得点項目について行われます。

その後、中小企業パネリストの個々の評価が統合され、比較される。評価のばらつきが大きすぎる項目（20～30ポイント以上の差がある項目）については、中小企業パネリスト全員と話し合います。中小企業パネリストは、最初のアンゴフ格付けの根拠を共有します。

MQC の項目の認知された難易度についての議論の後、SME には評価を修正する機会が与えられます。このプロセスを通じて、サイコメトリシアンは、ディスカッションの指針となる情報（実際の項目の難易度の統計など）を定期的に共有することがあります。

すべてのアンゴフ評価がレビューされ、最終的に決定されると、その評価はテストフォームの全項目で平均され、最初のアンゴフ・カットスコアが導き出されます。アンゴフ・カットスコアは、MQCがテストフォームで達成する可能性のある最低スコアと考えることができます。アンゴフ・カットスコアに加え、SME 評価のばらつきまたはテストフォームの測定標準誤差を使用して、アンゴフ・カットスコア周辺の許容可能なカットスコアの範囲を算出し、カットスコアとして選択することができます。とはいえ、SMEパネリストは、アンゴフ・カットスコアから逸脱することについて、十分かつ擁護可能な論拠を示す必要があります。

基準を参照した基準設定

最終的なカット・スコアは、全会一致で SME パネルから資格認定プログラムの管理団体に承認を勧告し、受理される。最終決定後、カット・スコアは、その特定のテスト形式の基準参照合格点となる。

代替フォームおよび/または将来のフォームの試験のカットスコアは、最初のフォームのカットスコア（基準設定プロセスを通じて決定）と、その後のフォームの同等のスコアを等しくすることによって決定される。

このように、個々の形式の難易度の違いに関係なく（つまり、難しい形式はカットスコアが低く、簡単な形式はカットスコアが高い）、受験者の最低限の能力を確立するために、公平で基準参照型のカットスコアがすべてのテスト形式に適用される。

ウィリアム・アンゴフとは？

ウィリアム・アンゴフ（1919-1993）は、アメリカの研究科学者で、43年間Educational Testing Serviceに勤務した。

ハーバード大学を卒業後、パデュー大学で修士号と博士号を取得。第二次世界大戦中、アンゴフは心理テストの専門家として米陸軍に勤務した。

1950年に教育テスト・サービスに採用され、1976年に開発研究部長に就任。Scholastic Aptitute Test（SAT）の改善に貢献した。2019年、このテストは220万人のアメリカの高校生が受験した。

アンゴフは、その専門的なキャリアの中で、教育測定に大きな貢献をし、決定的な「尺度、規範、等価点数」を含む心理測定に関する主要な出版物を執筆した。アンゴフは、最高の技術水準へのこだわりと、複雑な測定問題を広く理解しやすくする能力で知られていた。

恣意的なカットスコアとの比較

上記のプロセスは、テスト形式のカット・スコアを決定する他の一般的な方法（例えば、70%の任意のカット・スコアを選択する方法や、曲線による評定やパーセンタイル・ランクのような規範参照による方法）とは対照的である。資格認定プログラムが、基準参照型の基準設定調査という厳格なプロセスを経るのは、任意のカットスコアや規範参照型のカットスコアが、試験形式の難易度や受験者集団の能力レベルによって意味を変えるからである。これは、受験者について合否を決定するための、弁解の余地のない基盤を、長期にわたって、また試験形式間で構築するものであり、法廷で争われやすいものである。

例えば、ある資格認定プログラムが、試験の合格基準として70％という恣意的な基準を選んだとする。70％が最初の能力レベルを満たしているという裏付けはない。実際、最初の試験形式の難易度によっては、70％が最低能力をはるかに上回ったり（すなわち、資格のある受験者が不合格になったり）、もっと悪いことに、必要な能力を過小評価したり（すなわち、資格のない受験者が合格したり）する可能性がある。新しいテストフォームに70%を適用することは、他のすべてのテストフォームで測定される能力と同じレベルを表すかもしれないし、そうでないかもしれないからです。

恣意的な基準は、有効な認定試験や免許試験にはふさわしくないし、私たちの意見では、いかなる意思決定プロセスにもふさわしくない。

対規範基準

規範参照基準は、恣意的な基準よりもわずかに優れている。規範参照基準を設定する際には、少なくとも受験者の能力レベルを、受験するテストの難易度と比較して測る試みがなされる。しかし、受験者集団の能力は試験ごとに異なることがあるため（ある集団が他の集団より能力が高い、または準備が整っている）、規範参照基準は、受験した集団によって個々の受験者に異なる影響を与えることになる。

例えば、資格のある受験者が、資格のある、あるいは準備の整った仲間と一緒に受験することがあります。このようなグループに対してノルム参照基準を適用すると、資格のある受験者にとっては不合格となる可能性があります。さらに悪いことに、資格のない受験者が、他の資格のない人たちと一緒に試験を受けることもあります。この集団にノルム参照基準を適用すると、真の実力者がいなくても、無資格者が合格してしまうことになる。これはまた、書式の難易度の違いによっても悪化する（例えば、有資格者がより有資格の仲間と一緒に試験を受けると、難易度の高い書式に割り当てられる可能性もあり、有資格者の合格の可能性はさらに低下する）。

結論

基準設定調査を実施し、基準参照カットスコアを設定することは、すべての受験者が公平に評価されることを保証する唯一の方法である。基準参照カットスコアは、各受験生に全く同じ能力基準を適用し、本当に能力のある受験生が合格し、能力のない受験生が除外されることを保証します。

さらに、基準参照カット・スコアは、統計的等化手続きによって他のテスト形式にも有効に適用することができ、あるテスト形式ではカット・スコアが高くても（その方が簡単だから）、別のテスト形式ではカット・スコアが低くても（その方が難しいから）、すべてのテスト形式のカット・スコアが同じ能力レベルになるようにすることができる。

A Psychometrician's Guide to
スマートなテスト開発

ガイドをダウンロードする

ステップ9：ベータ参加者の採点

ステップ1～8が完了し、試験が確定した後、ベータ参加者はスコアのフィードバックを受け取ります。ベータ参加者は、通常、他の受験者に実施される「本番」の試験と同じ項目で採点されることに注意することが重要です。これにより、ベータテストに参加したか否かにかかわらず、すべての受験者にとって公平な試験プロセスが保証されます。

得点報告のベストプラクティス

試験結果を受験者（ベータ参加者または他の受験者）に報告することは、あらゆる資格認定プログラムにおいて最も重要なコミュニケーションの 1 つである。受験者に結果を提供する際の一般的なルールは、受験者者にとって有意義な情報のみを提供することである。

合格者の場合、結果報告は比較的簡単な努力で済む。最低限、合格者は合格結果と、最終的にクレデンシャルを取得するために必要な情報、またはクレデンシャルの保持または維持に関連するその他の情報（認定マークの適切な使用、再認定要件など）を得る必要がある。必要であれば、合格者に試験の総合得点（生、パーセンテージ、またはスケール）および／または内容ドメイン／トピックの得点を提供することもできる。

ただし、合格以上のスコア情報（「合格おめでとう！」など）を受験者に提供することは、現場で悪用される可能性があることに留意し、配布前に熟慮する必要がある。

不合格になった受験者に対しては、結果報告においてさらにいくつかの考慮事項がありますが、そのうちのいくつかは、試験開発プロセスの初期に生まれたものです。不合格になった受験者には、不合格の結果だけでなく、受験資格規定や再受験のための情報を提供する必要があります。不合格になった受験者には、再受験の準備をより良くするために、不得意分野を特定するのに役立つフィードバックをするのがベストプラクティスです。しかし、不合格者へのフィードバックを得点という形で行う場合は、その情報が受験者にとって有意義で有益なものとなるように試験を開発しなければなりません。

例えば、総合的な不合格スコア（生、パーセンテージ、またはスケール）を受験者に提示することは、受験者がカットスコアをどの程度下回ったか（すなわち、どの程度改善する必要があるか）という情報が提示されて初めて有益なものとなります。加えて、コンテンツ・ドメイン／トピック・スコアの提供は、各ドメイン／トピックに有効で信頼できる結果をもたらすのに十分な数の項目が含まれていることに依存します（これは、テスト設計図を作成する際に考慮されなければなりませんでした）。これは、ドメイン／トピックの得点が合格者に報告される場合にも同様に適用される。

ドメイン/トピックまたはサブスケールの最小項目数は、内容の均質性によって異なりますが、一般的に15～20項目が低い範囲として受け入れられています。有効で信頼性の高いドメイン／トピックのスコアのみが、不合格者が（スコアが比較的低かったトピックなど）学習に集中し、スコアを向上させるために利用できる有意義なフィードバックを提供します。

試験のスコアを悪用する

雇用主は、受験者が資格認定試験の総合得点を持っていることに気づき、それを人事選考基準として使用し始めるかもしれない（すなわち、試験得点の高い受験者が採用や昇進の際に優先される）。これは、試験結果の誤用であり、受験者に不利な影響を与える可能性がある。なぜなら、カット・スコア以上の試験のスコアは、より高いレベルの成績を区別するために検証されていないからである。また、試験の生得点やパーセンテージを人事の決定に誤って使用することは、個々の試験形式の難易度を考慮していないことになる（つまり、ある受験者は、より難しい試験形式の総合点が低くても、試験に合格している可能性がある）。

ステップ 10：テストメンテナンス

ステップ 1～9 を見直し、クレデンシャル開発プロセスに適用した場合、おめでとうございます。あなたのクレデンシャル・プログラムは立ち上げ準備完了である。

しかし、資格認定試験の作成は、「1回で終わり」という提案ではありません。クレデンシャル開発への投資に対する見返りを最大化するには、入念に検討された試験維持計画が必要である。

つまり、継続的に試験の成績を監視し、定期的に試験フォームを更新する必要がある。試験の監視および保守計画は、試験のセキュリティ・リスクを軽減し、試験がクレデンシャル・プログラムの目的をサポートし続けることを保証するために不可欠である。

テスト維持プロセスの確立の失敗は、プログラム・リスクの大きな原因である。クレデンシャル・プログラムの内容が古いと認識されたり、個人が不正な手段（不正行為など）でクレデンシャルを取得したりすると、クレデンシャル・プログラムの価値が低下する可能性がある。

審査維持活動には、魔法の公式や処方箋はありません。各プログラムは、独自のリスク要因と状況を考慮し、審査のモニタリングとメンテナンスの計画を立てる必要があります。計画には以下の活動を含めるべきである：

試験と項目の統計をモニターする
項目内容の最新性を監視する（例えば、専門家による実践、製品リリース、および/または規制の変更）。
項目、試験、またはプログラムに関する受験者のコメントを監視する（該当する場合）。
利害関係者（消費者、雇用者、第三者支払者など）からのコメントやフィードバックを監視する。
新しい項目（テスト問題など）の作成
新項目または改訂項目のベータテスト（すなわち、事前テスト
新規または改訂されたテストフォームの作成
新しいテストフォームまたは改訂されたテストフォームのカットスコアを決定する。

これらの活動のスケジュールや間隔は、さまざまな要因によって異なる。

モニタリング活動のスケジュールは、通常、実用的な考慮事項によって決定される。例えば、試験と項目の統計作成スケジュールを左右する重要な要因は、受験者数です。信頼性の高い統計データを作成するためには、通常1つの試験用紙につき少なくとも100人の受験者が必要です。それが不可能な場合は、60人程度の受験者でも分析を行うことができます。最低でも、試験と項目の統計は毎年見直す必要があります。

候補者数は、候補者のコメントをレビューするための妥当な間隔（例えば、毎月、四半期ごと、または毎年）を決定するのにも役立ちます。機会があれば、プログラムに関する利害関係者のフィードバックを収集する。最低でも、数年ごとの職務分析の前にこれを行い、新しい試験設計図を作成する際に、市場の需要を満たすために必要な調整が考慮されるようにします。

項目の内容を見直す間隔は、実務上の考慮事項によっても異なる。たとえば、IT 認証プログラムでは、現在の項目が古くなっていないことを確認するために、製品リリースに関連して現在の項目を見直す必要がある場合がある。実際、あらゆる種類の資格認定プログラムでは、項目が古くなるリスク（規制の変更、新しい技術に関連する実務の変更など）がある要因を特定する必要がある。多くのプログラムでは、項目の年次見直しで十分である。年間受験者が 100 人または 200 人しかいないクレデンシャル・プログラムの場合は、毎年同じ時期に項目の統計および項目の妥当性を見直すことが妥当であろう。

項目と試験用紙の統計的モニタリングのスケジュールは、試験用紙で継続的に使用する項目を評価するために必要な統計であるため、試験のメンテナンス活動にも影響する。

審査維持の取り組みの主な目標は、審査のセキュリティリスクを管理し、古い項目コンテンツがもたらすリスクを抑えることです。これらのリスクに関して検討すべき質問を以下に示します。

年間受験者数は多いですか？数が多ければ多いほど、項目の露出や試験のセキュリティリスクは高くなります。
あなたの試験はどこで実施されますか？世界の特定の地域では、試験の受け止め方の文化的な違いにより、試験のセキュリティ侵害のリスクが高くなります。
あなたのプログラムは、ステークスの高いクレデンシャル（すなわち、業界で働くために必要である、または非常に高く評価される）と考えられるか。クレデンシャルが業界で練習または仕事をするために必要である場合、またはクレデンシャルが高く評価される場合、受験者は試験中に試験の安全性を損なう動機が大きくなる。
受験者は、試験や項目に関する情報を共有する可能性があるか（例えば、多くの受験者が同じ雇用主に勤めている、受験者が同じプロバイダーから準備クラスを受講する可能性が高いなど）。
不合格になった受験者に対する再試験の方針はどうなっていますか（再試験を受けるまでに受験者が待たなければならない期間や、受験者が再試験を受けられる回数など）。再試験規定が厳しくないほど、試験の安全性に対するリスクは大きくなります。
どのような間隔で項目内容が古くなる可能性がありますか？IT認定資格では、製品のリリースに対応するため、項目や試験の開発サイクルを早める必要があります。
プログラムの認定を受けようとお考えですか？もしそうであれば、試験のセキュリティを維持し、セキュリティ侵害が発生した場合でも運用を継続できるよう、十分な数の試験項目を用意することに関する基準があります。

上記の質問に対する回答は、同時に使用するためにいくつの試験用紙を開発する必要があるか、また、試験を適切に維持するためにどれくらいの頻度で新しい試験用紙を作成する必要があるかを特定するのに役立ちます。試験用紙の数や改訂の頻度にかかわらず、あなたのプログラムでは、継続的な新項目の開発とベータテストの計画を立てる必要があります。

項目作成者は、定期的に新しいコンテンツを作成し、試験で使用するためにこれらの項目を改訂し、検証する必要があります。パフォーマンスが良くなかったり、古くなったりした項目の改訂を、進行中の項目開発プロセスに組み込みます。新しい項目や改訂された項目を、試験用紙の採点なし項目としてベータテストする。1組のベータテスト項目について、約100人の受験者のデータが集まったら、新しい項目と入れ替える。

設定した間隔で、新しいテストフォームを作成することができます。既存のテストフォームの 10 項目または 20 項目を置き換える場合でも、新しいテストフォームを作成する場合でも、カットスコアを決定する必要があります。実際、試験の採点項目を変更する場合、カットスコアを評価する必要があります。カットスコアを評価せずに採点項目を差し替えたり、編集したりすると、試験結果の妥当性（したがって、その擁護可能性）に悪影響を及ぼします。

パフォーマンスと内容に関連する項目の監視、項目の改訂と廃止、新項目の開発、項目のベータ・テスト、および新試験形態の作成というこのプロセスは、項目と試験のライフ・サイクルを構成する。このライフ・サイクルは、健全な資格認定プログラムの生命線である。

日常的なケアがないと、人間の能力は機能不全に陥る。資格試験に日常的なケアが欠けている場合、典型的な症状としては、職務に関連する内容のサンプリングに性能の悪い項目を使用したり、過剰な露出の試験を行ったりすることが挙げられる。その結果、受験者の能力判定に誤りが生じることがある（すなわち、合格すべきでない者を合格させ、合格すべき者を不合格にする）。さらに悪いことに、試験の青写真を満たすには項目数が少なすぎることもあり、その結果、法的な擁護に欠ける試験になってしまうこともあります。

検査をモニタリングし、維持するための計画を立てる際に考慮すべき要素は非常に多いため、心理測定専門家に相談することが役に立つかもしれません。

特に重要なのは、計画中の試験維持活動を支援するために、十分な予算を組み、十分な SME を採用することである。資格認定プログラムの継続的な成功は、試験を受験者の能力の有効かつ信頼できる尺度として維持する能力にかかっている。

これで君は、正式に邪悪な賢者となった...。

おめでとうございます！これで、スマートテスト開発の10のステップをすべて確認しました。これらはすべて、Kryterion 40年以上にわたる経験に基づくものです。これで、最初または次の認定プログラムを立ち上げるための準備が整いました。また、この10のステップは、期待にそぐわない既存の試験を再設計する際の指針にもなります。

このガイドの内容に関するご質問は、Kryterion （[email protected]）までお気軽にお問い合わせください。

現在受験中の資格試験、次回の資格試験、あるいは初めての資格試験について、具体的なご相談をご希望の方は、下のリンクをクリックしてください。Eメールにて、30分間の無料電話相談のご予約を承ります。すぐにご連絡ください！

https://www.kryterion.com/psychometric-services-form

専門家に相談する

専門家に相談する

ホワイトペーパー

重要度の高い試験におけるWCAG 2.1およびVPATへの準拠：完全にアクセシブルな認定試験の実施方法

専門家に相談する

心理測定専門家による賢いテスト開発ガイド

目次

A Psychometrician's Guide toスマートなテスト開発

法的擁護性

信頼性

同じ言葉で話そう！

妥当性

中小企業

ステップ1：テストの定義

最低限の資格しかない候補者

試験内容は？

プログラム・パラメーターの変更にはコストがかかる

ステップ2：職務分析

職務分析が必須である理由

注意すべき物語

職務分析のステップ

職務分析調査

A Psychometrician's Guide toスマートなテスト開発

ステップ3：ブループリントのテスト

ステップ4：アイテム開発

暗記はプロフェッショナルではない

商品レビュー

驚くほど柔軟な多肢選択式項目

アイテム・フォーマットとアイテム・ライターの比較

A Psychometrician's Guide toスマートなテスト開発

ステップ5：ベータテスト

通常、ベータテストは2つの方法のいずれかで実施するのがベストである：

ベータ試験Q&A

ベータ試験はどのように実施されるのですか？

誰がベータテストに参加すべきでしょうか？

ベータ参加者は、結果をどのくらい待たなければならないのですか？

ベータ試験への参加者を増やすための戦略はありますか？

ステップ6：項目分析

CTTとIRT測定

アイテム差別

オプション分析

A Psychometrician's Guide toスマートなテスト開発

ステップ7：フォームの作成

複数のテストフォーム

テスト・セキュリティ

公正なテスト

ステップ8：基準設定

アンゴフ・メソッド

基準を参照した基準設定

ウィリアム・アンゴフとは？

恣意的なカットスコアとの比較

対規範基準

結論

A Psychometrician's Guide toスマートなテスト開発

ステップ9：ベータ参加者の採点

得点報告のベストプラクティス

試験のスコアを悪用する

ステップ 10：テストメンテナンス

これで君は、正式に邪悪な賢者となった...。

テスト受験者

テストスポンサー

クイックリンク

アセスメント・プログラムをコントロールしよう

以下の中から該当するものをお選びください：

アセスメント・プログラムをコントロールしよう

以下の中から該当するものをお選びください：

A Psychometrician's Guide to
スマートなテスト開発

A Psychometrician's Guide to
スマートなテスト開発

A Psychometrician's Guide to
スマートなテスト開発

A Psychometrician's Guide to
スマートなテスト開発

A Psychometrician's Guide to
スマートなテスト開発