重回帰分析は、因子分析や主成分分析のようにデータを要約するのが目的ではなく、データをもとに予測することが目的です。
偏回帰係数
例えば、下のような表があったとします。
体重 | 身長 | 胸囲 | 腹囲 | |
---|---|---|---|---|
Aさん | 41.0kg | 159cm | 79cm | 70cm |
Bさん | 55.0kg | 173cm | 82cm | 75cm |
Cさん | 68.0kg | 181cm | 89cm | 88cm |
体重、身長、胸囲、腹囲には何か関係がありそうです。
おおざっぱに見れば、身長、胸囲、腹囲が大きいほど体重が大きいというのは感覚的にも納得できます。
ということは、身長、胸囲、腹囲がわかれば、体重がわかるのではないかと考えられます。
ここで、a、b、cを偏回帰係数と呼び、結局、この偏回帰係数がわかれば体重がわかることになります。
ということで、身長、胸囲、腹囲という「説明変数(目的変数、独立変数)」から、体重という「基準変数(従属変数)」を求めるために偏回帰係数を見出すのが重回帰分析ということ、特に説明変数が1つの場合は単回帰分析といいます。
観測データが「説明変数」、そこから重回帰分析で求めるものが「基準変数」と呼びますので覚えておきましょう。
多重共線性
ここで、身長、胸囲、腹囲から体重を導くわけですが、身長、胸囲、腹囲という説明変数同士に強い相関がある場合を考えてみます。
重回帰分析は、説明変数相互の相関関係を考慮し、その影響を取り除いて各説明変数の純粋な影響を取り出すものなので、説明変数同士に強い相関があると重回帰分析を用いることができません。
身長や胸囲から体重を求めたいのに、身長と胸囲に相関があるとダメってことです。
説明変数同士の相関が強い場合は、説明変数の間にすでに別の線形回帰関係が含まれます。
この状態を多重共線性と呼び、このような場合は重回帰分析を用いることはできません。
説明変数同士に相関があれば、そもそもどちらかを用いればよいことになりますから、両方を用いてしまうと連立方程式の数が不足してしまいますね。
重相関係数
先ほど見てきた偏回帰係数は、他の変数の影響を取り除いた時の説明変数の影響の大きさと向きを表すものでしたが、重相関係数は説明変数全体での影響の大きさを表します。
具体的には、基準変数と予測値との相関係数のことです。
重相関係数は、下図の赤い三角形のコサインです。
ホーソンの実験
ホーソンの実験とは、1927年から1932年にかけてハーバード大学のメイヨー(G.E.Mayo)教授らがアメリカのホーソン工場で実施した実験です。
工場内の生産性を上げるために、「作業環境」「休憩時間」「賃金」などを変化させて、「作業効率」がどの程度変化するかを実験しました。
例えば工場内の照明を明るくして作業効率の変化を見たり、休憩時間や賃金を変えてみて、それらがどの程度作業効率に効いているのか調査しました。
この調査には重回帰分析が用いられます。
つまり、
基準変数:「作業効率」
作業効率=a×作業環境+b×休憩時間+c×賃金+d×人間関係+・・・
この中で、作業効率に決定的に影響を与えたのが「人間関係」でした。
つまり偏回帰係数のうち「d」が他の係数に比べて圧倒的に大きかったわけです。
ホーソンの実験と重回帰分析を関連させて覚えれば、両方覚えられて一石二鳥です。
このようにホーソン研究では、経営組織の諸状況が人間関係によって規定されることを示しました。
これを人間関係論と呼び、その基礎を築いたのがホーソン研究を実施したメイヨーたちなのです。
まとめ
重回帰分析の流れをまとめます。
②予測値と観測データ(基準変数)の相関を見る=重相関係数を求める。
③重相関係数の値から、説明変数で基準変数を説明できる度合いを見積もる。
過去問
第1回 問41
重回帰分析で算出される重相関係数の説明として、正しいものを1つ選べ。
① 説明変数間の相関係数のことである。
② 基準変数と予測値との相関係数のことである。
③ 説明変数と予測値との相関係数のことである。
④ 説明変数と基準変数との相関係数のことである。
① 説明変数間の相関係数のことである。
間違いです。説明変数間の相関が高いと多重共線性によって重回帰分析を用いることはできません。
② 基準変数と予測値との相関係数のことである。
正しいです。これが重相関係数です。
③ 説明変数と予測値との相関係数のことである。
間違いです。
④ 説明変数と基準変数との相関係数のことである。
間違いです。
第5回 問6
重回帰分析において、説明変数間の相関の絶対値が大きく、偏回帰係数の推定が不安定となる状態を説明する概念として、正しいものを1つ選べ。
① 一致性
② 共通性
③ 独自性
④ 不偏性
⑤ 多重共線性
選択肢⑤が正解です。
精神保健福祉士 第22回 問題18
成人の勤労者を対象に、職場でのストレスの大きさ、職場でのサポートの程度及び抑うつ症状の重症度について、一定の尺度を用いた質問紙調査を行った。調査で得られた量的データを基に抑うつ症状を従属変数として、職場でのストレス及び職場でのサポートの二つの独立変数との関連性について分析を行った。次のうち、上記のデータ分析方法の名称として、正しいものを1つ選びなさい。
1 カイ2乗検定
2 デルファイ法
3 重回帰分析
4 分散分析
5 因子分析
事例より、「抑うつ症状=A×ストレス+B×サポート」という関係性を想定し、抑うつ症状がストレスとサポートから予測できるようにするということなので、選択肢3「重回帰分析」が適切です。
第1回 問100
ワーク・モチベーション研究において人間関係論の基礎となったものとして、正しいものを1つ選べ。
① A.H.Maslow の欲求階層説
② D.McGregor の X-Y 理論
③ E.Mayo のホーソン研究
④ F.W.Taylor の科学的管理法
⑤ J.S.Adams の衡平理論
① A.H.Maslow の欲求階層説
間違いです。マズローの欲求階層説は、人間の欲求を5段階で設定した理論です。
② D.McGregor の X-Y 理論
間違いです。マクレガーのX-Y理論は、「人間は生来怠け者で強制されたり命令されなければ仕事をしない」というX理論と
「人間は条件次第で責任を受け入れ自ら進んで責任を取ろうとする」というY理論による動機付け理論です。
③ E.Mayo のホーソン研究
これが正解です。ホーソン研究とはホーソン工場での実験で、生産性に最も影響を与えたのは「人間関係」だったということです。
④ F.W.Taylor の科学的管理法
間違いです。テイラーの科学的管理法は、物理的な作業環境が生産性に影響を与えるとした労働管理法のことです。
⑤ J.S.Adams の衡平理論
間違いです。アダムズの衝平理論(公平理論)は「人間は不公平感を感じるほど、それを解消し公平感を感じられるような行動をとるように動機づけられる」という理論です。
次の記事
次は、これまで出て来たデータ分析手法をまとめます。
コメント