D'zLEC
中小企業診断士レッセフェール
けんけんの白書 ウラ読み タテ読み ナナメ読み

第2回 統計データもロジカル・シンキング!?(統計のイロハ 前編)の巻

【今回のまとめ】
1.最小二乗法(*1)は、データによるロジカル・シンキングである。
2.説明変数とは要因(原因)で、被説明変数とは結果である。
3.決定係数(RSQ)(*2)とは、推計式の説明力(パフォーマンス)の高さを示した統計量(指標)である。

前回は、「中小企業白書とは、論理に忠実な政府の報告書である」ということを説明しました。その内容は、1.白書の主張の根拠は、統計データにあることが多い、2.そのため、白書のあらすじを知るには、章や節のタイトル、図表の小見出しを眺めると便利である、ということでした。
その後、みなさんは、白書にトライされましたか?それから、論理のつながりを上手につかまえましたか?気になるところです。

今回は前回に続き、2003年版 中小企業白書 第2部 第2章 第2節「開業率低下の要因」(1)業種別に見た事業者対被雇用者収入比率を題材に、統計のイロハとして白書資料の読み方について説明します。まず、本題に入る前に、節の基本構造について見てみます。

白書では、第2節を始めるにあたって、「なぜ開業率が低下を続けてきたのか。これを探るために経済全体の開業率の水準を左右すると考えられるものは何かを考えてみよう」(白書 P.90右下〜92左上)と、問題提起を行っています。そして、開業率に影響を与える要因として、「実質GDP成長率」と「事業者対被雇用者収入比率」の二つ(白書 P.92左中)に着目しています。
「1980年代以降、低下する開業率(企業数ベース)」と1990年代からの開廃業率の逆転(企業数ベース)の要因を明らかにすることで、政府の解決策(政策)を導き出すためです。

ここでは白書を読むにあたって、注意すべきポイントを一つだけ示します。
それは、白書が議論の展開を行うにあたって、どのような「フレーム」(分析の枠組み)を用いているかを考える、ということです。
「フレーム」とは、問題を体系的に整理し、議論の展開を規定するものなので、これが何かを見破ると、相手の話す内容(手の内)が見えてくるからです。つまり、相手の言わんとすることについて、理解が早まるというわけです。
例えば、こういう読み方を繰り返すことで、「さっきまで、何を読んでたっけ?」なんてことが減って、ストーリーが記憶に残り易くなります。論理のつながりが、思考回路にストーリーの意味を刻み込んでくれるからです。

さて、白書では、開業率の低下を説明するにあたって、「フレーム」についての説明はありません。ですが、前年の2002年版白書(P.60〜)で、これと同様の分析を行うにあたって、開業率を決定する「経済要因」であると述べています。
ですから、「実質GDP成長率」が「開業のための市場環境を示すマクロ経済要因」、「事業者対被雇用者収入比率」が「個人の利潤動機を示すミクロ経済要因」と、推測できます。
でも、これらの切り口は、「GDP成長率が高いと事業を開始するのに良好な経済環境にあり、開業が増加すると考えられる」(白書 P.92左中)、「自営業者であることが被雇用者であることにより引き合う(儲かる)なら、開業は増加するであろう」(白書 P.92左中)と述べられていることから、まだ仮説の段階であることが分かります。
そこで、仮説の妥当性を検討するため、統計学の手法を用いるのです。

白書の図と小見出しをご覧ください。
「開業率と実質GDP成長率の関係」は第2-2-15図、「開業率と事業者対被雇用者収入比率の関係」は第2-2-16図です。
ここでは、紙面との関係で、第2-2-16図だけを対象に話を進めます。

まず、結論を示す小見出しに、「開業率と事業者対被雇用者収入比率には正の相関関係が見られる」とあります。また、図のX−Y平面上には、濃紺の点が散らばっていて、その点を縫うように海老茶色の右上がりの直線が通っています。さらに、数式やら、意味不明の英字コメントまであります。正の相関とか、RSQとは、いったい何なのでしょう?
今回は、これらの内容について簡単な解釈ができるようになるのが目的です。

図で、確認します。
まず、濃紺の点は、年度毎のデータを表しています。図中に、1971年、80年、90年、2001年と、矢印で西暦のコメントが付いていることから分かります。
この年度毎のデータはいったい何なのでしょう?
ヒントは、濃紺の点が、X−Y平面上にどのようにしてプロット(打点)されたかです。点の位置は、X軸とY軸の二軸により決められているからです。
で、X軸とY軸を見てみます。X軸には事業者対被雇用者収入比率、Y軸には開業率(%)とあります。つまり、濃紺の点は、事業者対被雇用者収入比率と開業率の2つのデータ(実測値)を表していることが分かります。
例えば、1971年のデータを見てみます。だいたいの目分量ですが、x(事業者対被雇用者収入比率)が約1.3、y(開業率)が約10.0%弱に位置しています。数学の表記法では、71年のデータ(x,y)を(1.3,10.0)と表します。
こうしたデータをX−Y平面上にプロットした図を相関図(散布図、スキャッタ・ダイヤグラム)と呼びます。また、元データ(x,y)の集まりをデータ・セットと呼びます。
さて、図の式について確認しましょう。

Y=9.342X−2.0008
RSQ=0.840
Xは1%水準で有意

ここでは、式の算出プロセスについて説明を省きますが、最小二乗法という統計手法により、推測(推計)された式であると覚えておいてください。
この推計式は線形回帰モデル(式)と呼ばれ、変数X(事業者対被雇用者収入比率)が決まると、変数Y(開業率)が決まるという関係を表しています。

線形回帰モデルとは、Y=aX+bで表される式のことで、Xを説明変数、Yを被説明変数、Xに付いている係数aを推計係数、bを定数項と呼びます。
ここでは、データ・セットとして実測値(x,y)が与えられているので、a,bを推計すべき未知パラメーターとして求めています。
線形回帰モデルの目的とは、定性的な論理によってでなく、定量的な統計学の論理によって、YとXの関係(つながり)を確かめることです。このXとY因果関係を手がかりに、将来を定量的に予測することが可能となります。

また、白書のモデルでは、推計係数が9.342なので、Xが1増えると、Yが9.342増えます。つまり、XとYは比例の関係にあるので、回帰式の前に線形(比例)という名前が付くのです。そして、説明変数が一つのものを単純回帰モデル、説明変数が二つ以上のものを重回帰モデルと呼びます。
この線形回帰モデルをX−Y平面上に表したものが、海老茶色の右上がりの直線です。この直線は、回帰直線と呼ばれます。回帰直線は、傾きaを持った直線で、定数項bでY軸と交わります。

では、先ほどの1971年のデータで実際に推計をしてみます。
Xの実測値を1.3として、線形回帰式に代入すると、Yの推計値は10.138になります。Yの実測値が約10.0ですから、推計値との誤差は小さいと言えそうです。

でも、ここで一つの疑問が生じます。計算に使用した実測値は、もともと回帰直線上に位置した推計に都合のよいデータだったからです。ですから、その実測値で計算しても、推計値と実測値に差が生じないというのは当たり前です。
例えば、回帰直線から離れて位置する1990年のデータでは、図を見て分かるとおり、推計値は実測値を2%弱ほど下回っています。回帰直線と大きな(誤)差が生じているのです。


そこで、登場するのがRSQ(決定係数)です。
RSQの定義は、推計式が被説明変数の動きをどれだけ説明できるかを算出したものです。統計学的厳密さは別として、被説明変数の推計値と実測値がどの程度一致(フィット)するかを示す統計量(指標)だと覚えておいてください。言い換えると、推計式の説明力(パフォーマンス)の高さを示した指標と言ってもよいでしょう。RSQは、0〜1の値を取り、1に近いほど説明力が高くなります。回帰直線の周りをデータが密集しているほど、RSQが1に近いと言ってもよいでしょう。
今回のケースではRSQが0.84(コンマハチヨン)もあるので、説明力が高いと言えます。

また、決定係数は、説明変数の数を増やすと1に近づく傾向にあるので、重回帰モデルの場合、Adjusted RSQ(自由度修正済決定係数)が用いられます。RSQと同様に、この指標も0から1の値を取り、1に近いほど説明力が高くなります。

それと、証明は省きますが、線形回帰式で求められたRSQは、相関係数(r)を二乗したものと等しくなることを覚えておいてください。つまり、相関係数とは、データ・セットの分布がどの程度直線(線形回帰)に近い関係にあるかを示した統計量(指標)のことなのです。
相関係数では、決定係数と違い−1から+1の値を取ります。絶対値|1|に近いほど、相関は強く、ゼロで無相関となります。


また、相関係数がマイナスの場合、負の相関と呼び、回帰直線は左上がりとなります。つまり、回帰直線のXにマイナスの符号がつきます。プラスの場合、正の相関と呼び、回帰直線は右上がりとなります。

かなり説明が長くなりました。今回は統計のイロハとして、線形回帰モデルの推計結果の解釈方法について説明しました。回帰モデルの推計については、エクセル等の表計算ソフトに計算機能があるので、何かの機会にトライされることをお勧めします。

次回は、寄与度や変動係数等についてお話しします。では。
  (次回に続く)

参考文献

計量経済分析の基礎と応用
(刈屋武彦 監修 日本銀行調査統計局 編/東洋経済)
エコノミストが必要とする統計学をコンパクトにまとめたテキストです。ただし、経営学系の本ではないので、診断士試験的にはお勧めできません。
目次
第1回
ロジカル・シンキングで白書を解剖する!?の巻
第2回
統計データもロジカル・シンキング!?(統計のイロハ 前編)の巻
第3回
平均では分からない中小企業の特性!?(統計のイロハ 後編)の巻
第4回
中小企業政策の歴史もロジカル・シンキング!?の巻

(*1)【最小二乗法】
変数Yが変数Xにより決定される理論モデルを、与えられたデータセットから推計する方法のことです。標本である一部の実測値(x,y)から、母集団全体の構造を推定する作業といえます。具体的には、理論モデルをY=aX+bとした場合、パラメーターa,bを推計することです。

(*2)【RSQ(決定係数)と相関係数の関係】
RSQとは、R Squareの略です。つまり、相関係数(r)の二乗という意味です。証明は省きますが、線形回帰式で求められたRSQは、相関係数(r)を二乗したものに等しくなるからです。
相関係数は、次の式で表されます。

  ←前へ   次へ→  

(C) TOKYO LEGALMIND K.K., Printed in Japan