【心理検査】信頼性と妥当性

心理検査

2022.04.092022.07.09

心理検査には信頼性（reliability）と妥当性（validity）が要求されます。

これまで見てきた様々な心理検査は、この信頼性と妥当性を何度も検証し、世に出しています。

信頼性
妥当性
信頼性＆妥当性
テストバッテリー
最後に
過去問
1. 第2回問16
2. 第3回問12　
次の記事

信頼性

信頼性とは「検査結果の一貫性」のことです。

例えば、知能検査でIQを算出するときに、何度やっても同じくらいの値になるのであれば信頼性は高いですが、毎回全く異なる値になるのであれば信頼性は低いです。

何度検査しても、バラツキ（誤差）が少なく同じような値になるかってことですね。

YG性格検査は、この信頼性が高いことで有名です。

信頼性には以下の３種類あります。

再現性（安定性）

再現性は、先ほどの例で挙げたように同一対象に同じ検査を繰り返しても同じ測定値が得られる程度のことです。

実際に同一人物に時間をおいて同一検査を行い、２回の結果を相関係数で評価する「再検査法（再テスト法）」によって再現性が確かめられます。

ただし再検査法は、時間を置いて検査をするので被験者の状態が変わってしまっている可能性があり、注意です。

等価性

等価性は、同じような他の検査との関係性の程度です。

つまり似たような検査と同じような相関があれば信頼性が高いと推定します。

ただし、似たような検査があればそれを用いればよいわけで、この等価性については信頼性の１つとして吟味されないことが多いです。

等価性は、似たような2種類の検査の測定値間の相関係数を評価する「並行検査法」によって推定できます。

内的整合性

内的整合性とは、「その検査の尺度内の項目が、同じ内容を測定しているか」ということです。

つまり、内的整合性が高いというのは、各質問にバラつきがないということです。

この内的整合性を検証するには、例えば、ある尺度に関する複数の質問を、２群に分けて相関係数を算出して評価する「折半法」、可能なすべての組み合わせについて相関係数を算出して平均する「クロンバックのα係数」があり、現在では信頼性の評価として「クロンバックのα係数」を用いるのが主流です。

クロンバック（L.J.Cronbach）はアメリカの心理学者です。

＜クロンバックのα係数＞
・0～1の値をとる
・値が1に近いほど信頼性が高い
・検査項目の数が多いほど高い値をとる

妥当性

妥当性とは、「検査が測定しようとしているものを正しく測定できている程度」のことです。

例えば、「あなたは心配性ですか」という質問があったとして、心配性だと思われたくないからこの選択肢を選ぼうなどという思考が働くと、正しく測定できない可能性がありますね。

だとすれば、そのような質問で目的のものが正しく測れているとは言えず、妥当性が低いということになります。

認知症検査であればその検査内容がちゃんと認知症を測定できるかどうか、その程度が妥当性です。研究そのものの妥当性は内的妥当性、その研究が一般集団に当てはまるかどうかは外的妥当性と呼ばれています。

この妥当性を積極的に検査の中に取り入れた性格検査が、MMPIです。

MMPIは、妥当性尺度を設定している特徴的な性格検査でした。

MMPIの妥当性尺度には、「？尺度」「L尺度」「F尺度」「K尺度」の４種類がありました。

?尺度：「どちらともいえない」と答えた項目の数を表し、多いと妥当性が疑わしくなるため判定の中止や再検査を検討
L尺度（虚偽尺度）：自分を好ましく見せようとウソの選択肢を選ぶ程度
F尺度（頻度尺度）：正常な人では出現率の低い回答をした数
K尺度（修正尺度）：自己に対する評価、検査に対する警戒の程度を調べる

MMPIの妥当性尺度はしっかり覚えておきましょう。

妥当性には以下の３種類あり、それぞれ補完し合っています。

内容的妥当性

ある検査の項目が、測定しようとしている領域に適切か否か

基準関連妥当性

別の外的基準とどの程度関連があるか

構成概念妥当性

測定しようとしている概念をどのくらい測定できているか

信頼性＆妥当性

ここまで見てきて、信頼性よりも妥当性がまずは重要ということがわかりますね。

妥当性が担保されていないと、どれだけ信頼性が高くても的外れですから。

信頼性と妥当性は、よくダーツに例えられます。

信頼性が高いとはバラツキが少ないということなので、ダーツの矢が同じところに刺さるイメージです。

ただし、的の真ん中でなくても、端っこでもバラついていなければ信頼性は高いということになります。

対して、妥当性とは、ダーツの的の真ん中に矢が刺さることです。

つまり、信頼性が高くても妥当性が高いとは限らないということですね。

テストバッテリー

心理検査では、ひとつの検査では妥当性が十分担保できないため、いくつかのテストを組み合わせて妥当性を高めます。

これをテストバッテリーと呼びます。

複数の心理検査を組み合わせる目的は、妥当性を高くするためということですね。

最後に

心理検査には「信頼性」と「妥当性」が重要であるということを見てきました。

信頼性は誤差（バラツキ）が少ないこと、つまり測定の一貫性や正確性ということです。

妥当性は、目的の内容を正しく測れているかということです。

YGPIは「信頼性」、MMPIは「妥当性」という対比は覚えておきましょう。

過去問

第2回問16

神経心理学的テストバッテリーについて、正しいものを１つ選べ。
① 各心理検査は、信頼性が高ければ妥当性は問われない。
② Luria-Nebraska神経心理学バッテリーは幼児用として開発された。
③ 固定的なバッテリーの補完としてウェクスラー式知能検査が用いられる。
④ 多くのテストを含む固定的なバッテリーが仮説を検証するために用いられる。
⑤ 可変的なバッテリーでの時計描画テストは、潜在する気分障害を発見するために用いられる。

① 各心理検査は、信頼性が高ければ妥当性は問われない。
間違いです。心理検査は信頼性と妥当性が担保されていることが必要です。
妥当性が高いと信頼性も高くなりますが、信頼性が高くても妥当性が高いとは言えません。

② Luria-Nebraska神経心理学バッテリーは幼児用として開発された。
間違いです。Luria-Nebraska神経心理学バッテリーは成人用として開発されました。

③ 固定的なバッテリーの補完としてウェクスラー式知能検査が用いられる。
正しいです。

④ 多くのテストを含む固定的なバッテリーが仮説を検証するために用いられる。
間違いです。「固定的なバッテリー」は主にパターン分析をするために用いられ、「可変的なバッテリー」は主に仮説を検証するために用いられます。

⑤ 可変的なバッテリーでの時計描画テストは、潜在する気分障害を発見するために用いられる。
間違いです。時計描画テストは、気分障害ではなく「認知機能障害」を発見するために用いられます。

第3回問12　

質問紙法を用いたパーソナリティ検査について、正しいものを1つ選べ。
① 検査得点の一貫性のことを妥当性という。
② α係数は、検査項目の数が多いほど、低い値をとる。
③ 再検査法では、2時点の検査得点間の相関係数を用い、検査の安定性をみる。
④ 検査が測定しようとしているものを正しく測定できている程度のことを信頼性という。
⑤ 検査得点の分散に占める真の得点の分散の割合が高いほど、検査結果の解釈が妥当になる。

質問紙法を用いたパーソナリティ検査といえば、MMPIやYGPIを思い浮かべますね。
MMPIには妥当性が高く、YGPIは信頼性が高いパーソナリティ検査でした。　

① 検査得点の一貫性のことを妥当性という。
間違いです。検査得点の一貫性のことを「信頼性」といいます。

② α係数は、検査項目の数が多いほど、低い値をとる。
間違いです。α係数は、検査項目の数が多いほど、高い値をとります。

③ 再検査法では、2時点の検査得点間の相関係数を用い、検査の安定性をみる。
正しいです。

④ 検査が測定しようとしているものを正しく測定できている程度のことを信頼性という。
間違いです。検査が測定しようとしているものを正しく測定できている程度のことを「妥当性」といいます。

⑤ 検査得点の分散に占める真の得点の分散の割合が高いほど、検査結果の解釈が妥当になる。
間違いです。古典的テスト理論では、検査得点から誤差を引いたものが真の値であり、検査得点の分散に占める真の値の分散の割合のことを信頼性係数と呼びます。
この信頼性係数が大きいほど信頼性は高くなりますが妥当性については測れないため「検査結果の解釈が妥当になる」とは言えません。

これで心理検査は終了です。

よくがんばりました。

次からは「心理療法」に入っていきます。

まずは、最も重要な「認知行動療法」から。