専門的な知識がなくてもできる、Excelを使った簡単なデータ分析方法を全3回にわたってご紹介しています。
前回までの記事はこちらをご覧ください。
今日からはじめるExcelデータ分析!第1回 ~平均値・中央値・最頻値ってなに?~
普段の仕事の中で目にするさまざまな数字やデータ、、その数字の意味、本当に理解できていますか?ビジネスの現場では…
今日からはじめるExcelデータ分析!第2回 ~移動平均と季節調整でデータの本質を見極める~
第2回目となる今回は、平均値の応用となる「移動平均」と「季節調整」を使った時系列データの分析方法をご紹介します…
第3回目となる今回は「回帰分析(かいきぶんせき)」に挑戦します。少し専門的な用語も出てきますが、データ分析を行う上で知っておいて損はないのでこの機会にぜひ覚えてみてください。
ではさっそく、回帰分析で何ができるのか見ていきましょう!
目次
回帰分析でなにがわかるの?
回帰分析は、簡単に説明すると「データ同士の関係性を具体化(数値化)する」分析手法です。
たとえば、アイスクリームの売上個数とその日の最高気温のデータがあるとします。なんとなく暑い日は自分もアイスクリームが食べたくなるので、気温が高いほどよく売れるんだろうなと感覚的に予測することができますが、実際にどの程度気温が売上に影響しているのかを回帰分析では明らかにすることができます。
さらに回帰分析のおもしろいところは、単純に「気温が高いと売れる」「低いとなかなか売れない」という傾向だけではなく、「最高気温が32度ならアイスクリームは〇〇個売れる!」と具体的な予測がたてられることです。
また、売上は気温だけでなく、価格設定や曜日、広告などさまざまな要因が関係している可能性が高いので、それぞれがどの程度影響があるかを知ることで改善するべき項目に優先順位をつけることもできます。
データの関係性をグラフで視覚化してみる
今回は、先ほど例にあげたアイスクリームの売上個数と最高気温のデータで実際に回帰分析を行ってみます。まずはデータを散布図というグラフで表してみます。
散布図を見ると青い点が右肩上がりになっています。これは「気温が高いほどアイスクリームがよく売れる傾向がある」ということを表しています。これを「相関がある」といいます。相関についてここでは詳しく説明はしませんが、このグラフから2つの物事に関係性があるということがわかります。
関係は「式」で表すことができる
散布図に「近似曲線」を表示させます。
これは「最小二乗法」という計算で求められた直線で、Excelで簡単に表示させることができます。
1.散布図のいずれかの点を選択し、右クリックでメニューを表示させる。
2.表示されたメニューから「近似曲線の追加」をクリックする。
3.作業ウィンドウの[近似曲線のオプション]にある「線形近似」にチェックを入れる。
4.「グラフに数式を表示する」にチェックを入れる。
すると、散布図に右肩上がりの直線と数式が表示されました。
この式は中学の数学で習う一次関数の式「y=ax+b」なので、見覚えのある方もいらっしゃるかもしれません。今回は「気温の変化で売上個数が増減する」ことを想定しているので、ここでのxは増減の原因となっている「最高気温」を表します。それに対して、気温が変わって影響を受けるのは「売上個数」なので、以下のように表すことができます。
売上個数=a×最高気温+b
aとbの数値についてはまた後ほど出てきますのでこの式はなんとなく覚えておいてください。
Excelがあれば5秒でできる回帰分析
さて、このデータに関係性があることはわかってきました。いよいよ回帰分析をしてみましょう。
ここでも難しい計算はExcelがしてくれるのであっという間に結果が出ます。
Step1. [データ分析]をクリック
Step2. 「回帰分析」を選択
Step3. ダイアログボックスでデータ範囲と出力場所を設定
以上です!5秒は言い過ぎかもしれませんが、この3ステップであっという間にExcelがすべて計算してくれます。一応それぞれの手順を説明します。出来そうな方は読み飛ばしていただいて構いません。
Step1. [データ分析]をクリック
[データ]タブの分析グループから[データ分析]をクリックします。
Step2. 「回帰分析」を選択
[データ分析ダイアログボックス]から「回帰分析」を選択して「OK」をクリックします。
Step3. ダイアログボックスでデータ範囲と出力場所を設定
[回帰分析ダイアログボックス]が表示されるので「入力Y範囲」「入力X範囲」を指定します。
出力場所は、今回は「新規ワークシート」にしておきます。設定ができたら「OK」をクリックします。
新規ワークシートに回帰分析の結果が出力されました。
細かい数値や馴染みのない単語が並んでいます。
少し整理をして実際にどのような分析結果になったか見ていきましょう。
注目するのは「重決定 R2」と「係数」の数値
新しく作成されたシートに回帰分析の結果が出力されました。
まずは数値を見やすくするため、小数点以下の桁数を「2」に変更しておきます。
いくつもの項目が並んでいますが、ここで注目したいのは5行目の「重決定 R2」の値と、
17,18行目の切片と最高気温(℃)に対する「係数」の値です。
「重決定 R2」とは、「R2」で表される決定係数のことです。
0から1までの値となるのですが、1に近いほど分析の精度が高いことを意味します。
今回は0.63と出たので63%くらいは気温が売上個数に影響を与えていると説明できるといえそうです。
残りの37%は他の要因が売上に影響を及ぼしています。
次に、切片と最高気温(℃)の「係数」ですが、この数値に見覚えはありませんか?
実は先ほどデータを散布図で表した際に表示された式にあった数値です。
「y=ax+b」の式のaに最高気温(℃)の係数、bに切片の係数をそれぞれ代入すると、
y=2.43x-47.76となります。
あとは、この式を使って未来の「予測」をしてみましょう!
回帰分析の醍醐味である「予測」をしてみよう!
回帰分析で導き出された式のxに予想最高気温を代入すると、売上個数を予測することができます。
たとえば、明日の予想最高気温が30度だとすると、次のようにyの値が導き出されます。
すると、「明日はアイスクリームが25個売れそう!」という予測を立てられます。もちろん、売上には他の要因も関係してくるのでピッタリ予測することは難しいですが、データの関係性の高さを踏まえて対策をとることができます。
ここでひとつ注意したいのが、「じゃあ、気温が40度のときは49個売れるのか!」とぬか喜びしないことです。たしかに先ほどの式で計算すると、40度のときは49個売れるという結果が得られます。しかし、今回分析したデータの最高気温の範囲は29.5度~38.1度です。つまり、40度は「範囲外」であり、未知の領域となってしまいます。同じように最高気温を5度で計算すると「-35個」という結果になるのでこれも信用できません。
Excelが難しい計算をして分析をしてくれますが、それを「どう使うか」は自分自身で考える必要があります。
最後に、、、
いかがでしたか?今回は1つの要因に対して分析を行いましたが、実際のビジネスシーンではいくつもの要因が絡み合って結果が現れます。回帰分析でも複数の要因から分析する方法もあるので、「この結果にはどの要因が一番関係しているのか」を分析して、課題解決に取り組むこともできます。Winスクールの「Excelビジネスデータ分析」講座ではビジネスシーンで活用できる、より高度な分析手法についても学ぶことができます。
データ分析は今注目の「DX」でも欠かせないスキルです!まずは身近なExcelを使ったデータ分析からはじめてみませんか?もし興味を持っていただけたらぜひ一度「無料カウンセリング・受講相談」または「電話・オンライン説明会」にご参加ください。