連載企画第2回 統計を活用した意思決定の手法について
ビジネスにおける「統計を活用した意思決定の手法」として、前回は「相関関係」と「単回帰分析」についてご紹介しました。第2回目となる本稿においては、独立変数(説明変数とも言います)が複数存在する「重回帰分析」についてご紹介します。
前回はアイスクリームへの支出金額を平均気温から推定する式として、Y=40.248X+138.17という回帰直線を導きました。これは単回帰分析ですので、式の形が Y=aX+b(aとbは定数)となっていますが、重回帰分析では独立変数が複数個になるため、Y=a_1 X_1+a_2 X_2+a_3 X_3+a_4 X_4+bという形の式になります。それぞれの独立変数であるX_1、X_2、X_3、X_4にかかるa_1、a_2、a_3、a_4を回帰係数、bをY切片と呼びます。
それでは実際のケースで重回帰分析の使い方を見ていきましょう。
今回は、神奈川県の住宅地の平均価格がどのような要因によって説明できるのかを考えたいと思います。住宅地の平均価格を説明するには、いろいろな要因が存在するかと思いますが、思いつくものを挙げてみましょう。まずは当該地域の住民の収入でしょうか。収入が高い方は地価の高いところに住みそうですね。その他、例えば病院、図書館といった文化施設の数、幼稚園、小学校、中学校といった教育機関の数、観光客数や外国人居住者数といった経済指標も関係するかもしれません。文化施設や教育施設の多いところ、観光客や外国人居住所の多い経済的に発展している地域は地価が高くなるという仮説が考えられます。これらの中で実際に取得できるデータを集めて、以下の表1を作成しました。
(データ出典)
神奈川県地価調査(市区町村別平均価格推移)
https://www.pref.kanagawa.jp/docs/h4k/cnt/f4920/index.html
課税対象所得
https://www5.cao.go.jp/keizai-shimon/kaigi/special/future/keizai-jinkou_data.html
病床数・医師数、図書館数、幼稚園・小学校・中学校数、観光客数、外国人居住者数
https://www.pref.kanagawa.jp/docs/x6z/tc10/yoran.html
さてここから重回帰分析を行いますが、住宅の平均価格を説明するための独立変数として、現在10個の項目があります。この10個の独立変数のうちどれを使うのか、そもそもいくつの変数を使うのか、その組み合わせの数は1,023通りありますので(私が計算したところ1,023通りになったのですが、1,023通りではない!という方がいらしたらご教示いただけると幸甚です)、それを全部試してみるのは大変です。そこで、変数減少法という方法を使います。
変数減少法は以下の手順で重回帰分析を行います。
(1) すべての独立変数を用いて回帰分析を実行する。
(2) 結果を見て、不適切と思われる独立変数をチェックする。
(3) もし不適切と思われる独立変数が無ければ、その時点で終了。不適切な独立変数があった場合は、その独立変数を除外した表を作成する。
(4) 新しく作成した表で回帰分析を再度実行する。
(5) 上記(2)の手順に戻る。
それでは早速重回帰分析を行ってみましょう。
先程の表1のデータを使って回帰分析を行うのですが、手計算でやるのは実務上不可能なので、Excelに計算してもらいましょう。なお使用しているExcelのバージョンはMicrosoft Excel2016です。Excelの「データ」>「データ分析」から「回帰分析」を選択します。
すると上のようなウインドウが出てきますので、「入力Y範囲」に「住宅(千円/㎡)」のデータ列(項目名を含む)を選択し、「入力X範囲」に「課税所得(千円)」から「外国人居住者数」までのデータ列(項目名を含む)を選択します。
さらに「ラベル」にチェックを入れるのを忘れないようにして下さい。
その上で「OK」をクリックすると、以下のような分析結果が出力されます。
表1の一番下にある表における「係数」が回帰式Y=a_1 X_1+a_2 X_2+a_3 X_3+a_4 X_4+bの中の回帰係数a_1、a_2、a_3、a_4と切片bにあたります。絶対値が大きいほど、結果に与える影響が大きいということになりますが、それぞれの独立変数の単位が異なっている(金額、個数、人数等)ため、通常は「係数」をその右隣に記載してある「標準誤差」で除した、さらにその右隣の「t」を見ます。
ちなみに「標準偏差」というのは、サンプル(標本)や母集団、それ自体のバラつきを表す指標ですが、「標準誤差」はサンプルの平均値の標準偏差(バラつき)を表す指標であり、回帰直線を使って予測をする際、どのくらいその予測が正確かを測る尺度の一つです。
さて「t」の話に戻りますが、計算された係数に対して、バラつきが大きかった場合は、分母が大きくなりますので、「t」の値はゼロに近づいていきます。つまり「t」がゼロに近いということは、値のバラつきが大きすぎて、この係数に統計的な意味はない、ということを表しています。通常はtの絶対値が2以上であれば大丈夫だと判断されます(なぜtが2以上だとOKかというと、t検定という仮説検定の手法において、t値の絶対値が2以上であれば、95%以上の確率で統計的に意味がある数字だと見なされるからです。ここではt検定の説明については省略します)。
「t」の右横にある「p値」はこの「t」として算出された数字が、どのくらいの確率で「意味がない」のかを示すものです。「t値の絶対値が2以上であれば、95%以上の確率で統計的に意味がある」と記載しましたが、まさにp値はこの確率を指しています。p値はどのくらいの確率で「統計的に意味がない」かを示すものですから、tが2以上であれば、p値は5%以下の数値を取ることになります。
さてそれでは分析結果のt値を見て、絶対値が最も小さい項目は何でしょうか。
観光客数の0.0573が最も小さいですね。当たり前ですがp値も0.9556と非常に大きな数字となっております。ここから、観光客数はこの回帰式に対して不適切であり、統計的に意味がない項目だと判断することができます。したがってこの観光客数という要因は一覧表から除きます。
すると以下の表2が得られます。
この表2について、再度回帰分析を行うと、以下の結果が出力されます。
この表2から、再度tの絶対値が低いものを取り除いていきましょう。今度は「人口10万人あたりの医師数」が0.5528と最も低いですね。
そこで「人口10万人あたりの医師数」を除いた一覧表を作って、再度回帰分析を行いますが、こうした作業を不適切な項目が無くなるまで続けていきます。
最終的には以下の表3まで項目が絞り込まれました。
この表3について、回帰分析を行うと、以下の結果が出力されます。
課税所得、幼稚園学級数、認定こども園学級数のtの絶対値はすべて2を超えています。p-値も充分に低い(5%未満)ですね。
ここで他の指標も見てみましょう。
表の一番上にある「重相関R」は相関係数、「重決定R2」は決定係数を意味しています(決定係数とはこの回帰式の当てはまりの良さを示すものです。なお前回の連載記事で相関係数と決定係数についてはご説明しましたので、詳細はここでは省略します)。
その下にある「補正R2」というものは何でしょうか。実は「補正R2」というのはExcel特有の言い方であり、通常は「自由度調整済み決定係数」と呼ばれています。補正する前の「重決定R2」で示されている決定係数では、独立変数の数が多くなると、それらが結果となるYをうまく説明していなくても値が大きくなるため、それを補正したものです。Excelを使った重回帰分析ではこちらの数値を見るようにして下さい。今回、「補正R2」の数値は0.795ですので、観測されたデータのうち79.5%はこの回帰式で説明出来ていることになります。
その下の分散分析表にある「有意F」という数値は、現在選択されている独立変数を使った回帰式が、式全体として統計的に意味があるかどうかを示したものです(tやp-値は、個別の独立変数について、統計的に意味があるかどうかを調べるものでした)。3つ以上の独立変数を使って重回帰分析をした時に、各変数の分散を比較して、「この変数で導かれた回帰式が無意味である確率」を検定する「F検定」によって導かれた数字なので、「有意F」と言います。ここでは5.19×10^(-6)という極めて小さい数値になっておりますので、統計的に無意味である確率は極めて低いということを意味します。
さてここで得られた回帰式を改めて見てみましょう。
住宅価格(千円/㎡)をY、課税所得(千円)をX_1、幼稚園学級数をX_2、認定こども園学級数をX_3とすると、Y=76.549X_1+172.120X_2-883.053X_3-137,766.39となりました。
回帰係数の符号を見ると、課税所得と幼稚園学級数がプラス、認定こども園学級数はマイナスになっています。課税所得が高いと住宅価格も高いということになりますが、課税所得が高い人が住宅価格の高い場所に住むのは直感的に理解できますね。
では幼稚園学級数はどうでしょうか。住宅価格のトップ3である川崎市、横浜市、藤沢市は、幼稚園学級数も多くなっています(川崎市:751(2位)、横浜市:1,890(1位)、藤沢市:234(4位))。人口が多い都市部では幼稚園学級数も多く、そのような都市部の住宅価格が高いというのも、直感的に理解できますね。
それでは認定こども園学級数はどうでしょうか。回帰係数の符号がマイナスになっているということは、認定こども園が多ければ、住宅価格は下がり、認定こども園が少なければ、住宅価格が上がるという負の相関にあるということです。幼稚園学級数は正の相関なのに、なぜ認定こども園は負の相関になっているのでしょうか。
実は重回帰分析をして、プラスになるべき係数がマイナスになったり、マイナスになるべき係数がプラスになったりしている時は、独立変数が本当に独立なものとして機能しているかどうかを確認する必要があります。もしお互いに非常に強い相関が見られる独立変数が存在する場合は、他の独立変数の説明力が正常に機能せず、不自然な解析結果になっている可能性があります。この現象のことを多重共線性(Multi-Co-Linearity:マルチ・コ・リニアリティ)といい、実務では「マルチコ」と呼んだりすることもあります。
次回はマルチコのチェック方法と今回の解析の続きについてご説明します。
【参考文献】
はじめての統計学 鳥居泰彦(日本経済新聞社)
ビジネス統計学 上・下 アミール・D・アクゼル他(ダイヤモンド社)
文系のための理系的問題解決 多田実(オーム社)
Excelで学ぶ経営科学 多田実・大西正和他(オーム社)
【鷹野 慎太朗】
この記事へのコメントはありません。