協会活動のご案内

  1. HOME
  2. ブログ
  3. 会報
  4. 連載企画第1回 統計を活用した意思決定の手法について

連載企画第1回 統計を活用した意思決定の手法について

はじめに

ビジネスは人生同様、日々意思決定の連続です。企業の業績を大きく左右する意思決定を行う時もあれば、日常の些細な案件についての意思決定を行う時もあります。これらの意思決定の積み重ねが企業の将来の形を作り上げていくことなるのですが、こうした意思決定を行うにあたり、どのような手法を使うか、方法論は人それぞれかと思います。中には野生の勘でピタリと最善手を当てることができる方もいるかもしれません。しかし意思決定した後のアクションを一人だけで行うのであればまだしも、もし上司や部下といったチームのメンバーにも一緒に動いてもらうのであれば、なぜそのような意思決定をしたのか、納得してもらうことが必要です。この連載では関係者を説得し、納得してもらうための強力なツールの一つである「統計」を活用した意思決定の手法についてご紹介したいと思います。

1.相関分析

こではごく簡単な例として、アイスクリームの月別売上高と月別平均気温の関係を見てみましょう。直感的には「平均気温が高ければアイスクリームの売上高が上がり、平均気温が低ければアイスクリームの売上高は下がる」と考えられますが、果たしてそのような関係は見られるでしょうか。

表1は2018年1月から2019年12月までの東京の月別平均気温とアイスクリームの月別支出金額を並べたものです。

(出典:気象庁HP 過去の気象データ検索https://www.data.jma.go.jp/obd/stats/etrn/index.php
(出典:一般社団法人日本アイスクリーム協会HP
https://www.icecream.or.jp/biz/data/expenditures.html

データ分析にあたっては、すぐにデータを使って数値計算を行うのではなく、まず初めにExcel等のスプレッドシートを使って散布図を書き、データの散らばり具合を視覚的に確認することが必要です。表1のデータを使って散布図にしたのがグラフ1です。

グラフ1を見ると、明らかに平均気温が上がっていくと支出金額も増えているように見えますね。Xが増えるにつれてYも増える関係や、Xが増えるにつれてYが減少する関係を、「XとYの間に相関がある」と言います。今回の事例のようにXが増えるにつれてYが増える関係を「正の相関」、Xが増えるにつれてYが減少する関係を「負の相関」と呼びます。2つの変数XとYの間の相関関係が強いことを「相関が高い」と言い、相関関係が弱いことを「相関が低い」と言います。相関の程度を示す係数は、「相関係数(Correlation Coefficient)」と言い、通常rという記号で表します。相関関係を視覚的に確認した後は、相関がどのくらい強いのか数値的に確認するため、相関係数を計算しましょう。

XデータとYデータの相関係数rはXとYの共分散(r=σxy)をXデータ、Yデータの標準偏差 と の積で割った値 r=σxy∕SxSy となりますが、これをいちいち計算すると大変なので、Excelに計算させましょう。Excelの関数でCORREL(Xデータのレンジ, Yデータのレンジ)を使うと、相関の強さが-1から1の範囲で表示されます。最も強い正の相関は1、最も強い負の相関は-1、全く相関が無い場合は0となります。今回の事例で相関係数を計算すると、0.909となり、かなり強い正の相関があることが分かりました。

なお相関係数はただ算出するだけではなく、統計的に意味のある数字なのかどうか(意味があることを「統計的に有意である」と言います)確認する必要があります。ここで使っているデータはあくまでもサンプルですので、サンプルの選び方によって偶然相関係数が高い数値になったという可能性を否定できません。そのため、本当は何の相関も無いのに(相関係数がゼロなのに)、ゼロではない相関係数が算出された確率がどのくらいあるのか調べておく必要があるのです。本稿の後半で触れる回帰分析においても、算出された数値が統計的に有意であるかどうか確認する必要があり、その手法については後程ご説明しますが、相関係数の有意性の確認方法については、紙面の関係上ここでは触れませんので、ご興味のある方は専門書をご確認下さい。なお今回の相関係数はちゃんと統計的に有意な数字となっています。

2.相関関係と因果関係

診断士の皆さまには言わずもがなかもしれませんが、相関関係の分析結果を何らかの意思決定に使用する際には、相関関係と因果関係を混同しないように注意しましょう。

今回の事例は、原因:平均気温→結果:アイスクリームの売上という理屈が成り立ちそうなので、因果関係があるのではないかと考えられますが、例えばビールとアイスクリームの売上について相関関係を見るとどうなるでしょうか。おそらく気温が上がればビールの売上も上がり、気温が下がればビールの売上も下がると思われるので、原因:平均気温→結果:ビールの売上という因果関係は成り立ちそうです。この時、ビールの売上とアイスクリームの売上を見ると、同じような動きをすることが予想されるため、正の相関関係が成り立つと思われます。しかしビールの売上とアイスクリームの売上は、お互いに原因でも結果でもないため、因果関係は成り立ちません。

このようにAという事象とBという事象に相関関係があったとしても、事象Aと事象Bは、その裏に隠れているCという事象との因果関係があるだけで、事象Aと事象Bの間に因果関係は無いというケースがあります。事象Aや事象Bを増加もしくは減少させるためには、事象Cに手をつける必要があるにも関わらず、相関関係と因果関係を混同してしまうと、事象Aを変化させて事象Bを増加もしくは減少させようとする等、間違った手段を選択してしまう可能性がありますので、気を付けましょう。

3.回帰分析

さて因果関係があることが確認できた二つの事象について、この原因と結果の関係を法則性としてとらえる方法が回帰分析です。原因を表す変数(今回の事例では平均気温)を独立変数、結果を表す変数(今回の事例ではアイスクリームの売上)を従属変数と言い、この独立変数が一つの場合の回帰分析を単回帰分析、二つ以上の場合の回帰分析を重回帰分析と言います。重回帰分析については次回以降の連載記事の中でご紹介します。

単回帰分析において、独立変数Xと従属変数Yの関係は、Y=a+bX(aとbは定数)という一次関数の形で表現し、この直線を回帰直線と言います。この直線を数学的に求めるには、最小二乗法という方法を使います。それぞれの観測点と回帰直線との距離を残差(error)と言いますが、この残差の二乗の合計が最小となるような回帰直線を推計することになります。

例えば(X1,Y1)から(X5,Y5)まで5つのサンプルがあった場合の回帰直線ですが、(Xn, Yn)が観測点(nは1~5までの数値)で、それぞれの観測点における残差(u1からu5)が最小となるような直線を引くことが出来れば、XとYの法則を最もあてはまりが良く表現できる回帰直線を求めることが出来ます。その様子を図示したのが、下のグラフ2です。

なお観測点は回帰直線上の点より大きい場合もあれば小さい場合もあるため、残差の数値はプラスとマイナスが入り混じっています。そこで残差を単純に合計してしまうとそれぞれの残差が相殺しあってしまうため、それぞれの残差を二乗してプラスの値に揃えて合計します。その合計値が最小となるような回帰直線を求めるのですが、これを数学的に計算すると、かなり大変なため、これもExcelに作ってもらいましょう。

先程の平均気温とアイスクリームの売上高の散布図から回帰直線を引くことが出来ます。具体的には、Excelで散布図を描画した後、散布図の上でマウスをクリックすると、グラフの右側に「グラフ要素」アイコンが出てきます。この中から「近似曲線」を選択します。併せて「近似曲線」の「その他のオプション」から「グラフに数式を表示する」と「グラフにR-2乗値を表示する」にチェックを入れましょう。

するとグラフ3のような回帰直線が表示されます。この回帰直線の数式はy=40.248x + 138.17であり、R2は0.8265となっていることが分かります。

R2(アールスクエア)とは決定係数(coefficient of determination)のことで、どのくらい回帰直線がデータに適合しているかを示す指標です。R2は0から1までの値を取り、Yの変動のうち何パーセントが回帰直線で説明できるかを意味しているため、0の場合は回帰直線ではYの変動を何も説明できていないということを意味し、1の場合は回帰直線ですべてのYの変動が説明できるということを意味します。

この事例ではR2が0.8265、つまりデータのうち約82.7%が、この回帰直線で説明できているということですので、かなり当てはまりの良い回帰直線であるということが言えます。

次に回帰直線を見てみましょう。y=40.248x + 138.17ということは、例えば東京におけるその月の平均気温が25度であれば、その月のアイスクリームへの平均支出は約1,144円になるということですし、アイスクリームへの支出金額であるyは平均気温xが1度上がる度に40.248円増える、というように理解が出来ます。今回は平均気温とアイスクリームへの平均支出の関係を見ましたが、例えば自社製品の出荷量を従属変数として考えた時、出荷量を予測するのに有効な独立変数となるような事象を見つけ、その回帰式を得ることが出来れば、在庫不足による販売機会のロスや過剰な在庫による費用の増加等を防ぐことができる可能性は高まると考えられます。

最後にここで求められた回帰直線について、統計的に意味があるものかどうか(統計的に有意であるかどうか)を確認しましょう。今回はサンプルとして取得した2018年・2019年のデータについて回帰分析を行い、回帰直線が得られましたが、平均気温のデータやアイスクリームの平均支出については、それ以前のデータも大量に存在しています。これらのデータについて何度もサンプルを取り、回帰分析を行えば、当然ながら結果にはバラつきが発生してきます。今回の分析で使ったサンプルが、母集団とまったく違う性質を表しているという可能性を否定できません。そのため、母集団においては実は何の関係も無いのに(回帰直線の係数がゼロなのに)、今回の分析でたまたまゼロではない係数が算出された確率がどのくらいあるのか調べておく必要があるのです。 そこで次に散布図から回帰直線を描画するのではなく、Excelの「データ」>「データ分析」を使って「回帰分析」を行ってみましょう。すると以下のような結果が得られます。

ここで注目すべきなのは、赤線で囲まれている「t」と「p値」です。「t」の絶対値が2以上、「p値」が5%未満の場合、回帰係数がゼロである確率は5%未満ということを意味します。最下段の「X値1」はこの回帰直線の係数を示していますが、この係数の「t」は10.238、「p値」は7.8549×10-10で、tは2よりはるかに大きく、p値は0.05(5%)よりはるかに小さいですね。ここでようやく、この回帰直線は統計的に有意であるということが確認できましたので、安心して予測に使えそうです。

おわりに

今回は相関分析と単回帰分析についてご説明しました。実務的には独立変数が複数存在する重回帰分析が、意思決定には非常に有益なツールとなりますので、次回は重回帰分析のやり方、結果の見方等についてご説明します。

【参考文献】

はじめての統計学 鳥居泰彦(日本経済新聞社)
考える技術としての統計学 飯田泰之(NHKブックス)
直感的統計学 吉田耕作(日経BP社)
ビジネス統計学 上・下 アミール・D・アクゼル他(ダイヤモンド社)
文系のための理系的問題解決 多田実(オーム社)
Excelで学ぶ経営科学 多田実・大西正和他(オーム社)

【鷹野 慎太朗】

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。

関連記事