その「平均値」に意味はあるのか?

Date:

Share post:

最近「平均」に関して思うところがあったので、軽く触れてみたいと思います。

「平均値」と「中央値」

最近物価が上昇していることもあって、以下のような内容を良く目にするようになった気がします(世知辛い世の中になりました…)。

50代の金融資産保有額の平均は1200万円、中央値は300万円

数字は適当です。見るサイトによって結構内容が違っていますので。
ただ総じて「平均値」と「中央値」を列記し、両者に開きがあることに言及しているという点では共通しているように思います。

蛇足ながら「平均値」と「中央値」に関して定義を明確にしておきます。

平均値データの合計をデータ数で割った値
中央値データを大きさの順に並べ替えたときに中央に位置する値

例えば、預金額が以下のような状況の5人に関して考えてみます。

A100万円
B200万円
C300万円
D400万円
E5000万円

上記に関して、預金額の平均値は1200万円、中央値は300万円になります。
つまり、先に挙げた50代の金融資産保有額って、上記のような分布になっているかもってことですね。

普段「平均」と聞いてイメージするものは往々にして「中央値」の方の意味だったりします。
テストの得点が「平均点」と同じであれば、自分は集団内で真ん中くらいの成績だと考えるのではないでしょうか。
ただ、前述の例のように極端な値を含む場合は「平均値」と「中央値」はかなり違ってきます。
上記例でも5人中4人は平均以下ということになります。
平均以下の4人の中で最上位の人(D)でも平均の3分の1の預金額しかありません。

全体の真ん中を確認するつもりで「平均値」を見ても意味がないという良い例かと思います。

変化率の平均

先に上げた「平均値」と「中央値」の違いは感覚的にも理解はしやすいと思いますが、変化率に関して考え出すと途端に混乱してきます(少なくとも自分は)。

例として次のようなケースを考えてみます。
直近10年間で、ある商品の売り上げがどのように変化したかを整理した結果です。

売上高変化率
20131,629,131円
20141,745,077円107.12%
20151,903,371円109.07%
20161,911,437円100.42%
20172,276,494円119.10%
20182,001,477円87.92%
20192,365,662円118.20%
20202,744,417円116.01%
20212,879,171円104.91%
20222,609,450円90.63%
20233,085,885円118.26%

情報が上記しかない状況で翌年(2024年)の売上予測をしなければならない場合、どうすれば良いでしょう?
以下のように計算したくなりませんか?

上記にある直近10年間の変化率の平均は「107.16%」になる。
よって、翌年(2024年)の売上は2023年の売上3,085,885円の107.16%に当たる3,306,834円になると予測。

上記予測方法は適正でしょうか?

話を簡単にするために変化率が以下のようにケースを考えてみます。
隔年で変化率が150%となる年と50%となる年を繰り返している場合、2013年に1,000,000円の売上は2023年にはどうなるでしょう?
変化率の10年間の平均は100%になることは容易に計算できますが、1,000,000円と予測して良いでしょうか?

実際には以下のようになります。

売上高変化率
20131,000,000円
20141,500,000円150.00%
2015750,000円50.00%
20161,125,000円150.00%
2017562,500円50.00%
2018843,750円150.00%
2019421,875円50.00%
2020632,813円150.00%
2021316,406円50.00%
2022474,609円150.00%
2023237,305円50.00%

237,305円という結果になりました。1,000,000円と予測していたら大ハズレです。

パーセントのように数値化されてしまうと感覚的に捉えにくくなってしまうのですが、150%=1.5倍、50%=半分と置き換えてみると、2年間で元の数字を1.5倍した後に半分にしている、つまり2年単位で0.75倍していることが認識しやすくなるかと思います。

そもそも変化率は基準となる値に乗算していくものですが、ここに平均(加算)の発想を持ち込んだ点に問題があるのだと思います。
2 * 18 と 10 * 10 のように乗算を構成する各項の合計値が同じであれば演算結果も同じになると言っているようなものです。

と、このように冷静に考えれば変化率の平均を算出することに意味がなさそうな点は理解できるのですが、直感的には複数の数字があって、それらを均一化しようと思うと条件反射的に「平均」に頼ってしまいがちではないでしょうか?

変化率を均すには?

では最初の例における変化率に関して均一化した値を出すにはどうしたら良いでしょう?

ある程度法則性のありそうな分散した数値に対して、それらとの差が最小となるような近似式を求める方法としては最小二乗法がありますが、私の能力では近似式が一次式(直線)で表現できそうなケースまでが限界であるのに対し、今回の事例は複利的な変化であることから近似式は指数関数的なものになるはずなので、私の手には余ります。

ただ、単純に最初の値に同じ値(A)を乗算し続けて、結果として現在の値と同じになるようなAを求めるのであれば、全体の変化率のN乗根を算出すれば良いだけなので、こちらを使って考えてみましょう。

2013年に1,629,131円だったものが10年後の2023年には3,085,885円になっていますので、これは2013年の値の189.42%(1.8942)です。
189.42%の10乗根は106.60%(1.0660)です(この辺の計算はGoogleスプレッドシートで簡単にできます)。

では、2013年の値に上記変化率を適用した結果を実際の値と比較してみましょう。

実際の値計算結果
20131,629,131円0
20141,745,077円1,736,654円-8,423
20151,903,371円1,851,273円-52,098
20161,911,437円1,973,457円62,020
20172,276,494円2,103,705円-172,789
20182,001,477円2,242,549円241,072
20192,365,662円2,390,558円24,896
20202,744,417円2,548,335円-196,082
20212,879,171円2,716,525円-162,646
20222,609,450円2,895,815円286,365
20233,085,885円3,086,939円1,054

なんとなく良さそうですが、計算方法自体が最初(2013年)と最後(2023年)の値にしか依存していないので、途中の値は活かされておらず、全体としての最適解ではないような気がします。
よって、変化率を微妙に変えながら全体の差が最も小さくなる値を探ってみましょう。
なお「差」に関しては最小二乗法っぽく各値を二乗したものの合計が最小になる状態を「最小の差」とみなします。

結果は以下の通り。

変化率
106.50%240,483,685,603
106.51%240,421,796,252
106.52%240,410,007,994
106.53%240,448,424,051
106.54%240,537,147,805

上記結果から見れば、106.52%辺りが一番差が小さくなりそうです。

と言うことで、2024年の売上高は3,085,885円の106.52%である3,287,084円辺りを想定しておくのが良さそうです。

このケースでは変化率の平均値から予測した結果との差はあまり大きくありませんが、先に示した150%と50%のケースのように結果が大きく違ってくることも考えられますので、やはり平均値を元にした計算は不適切と判断するべきでしょう。

まとめ

学生時代(遥か昔ですが)に「今回のテストの平均点は…」というような話を聞き続けた結果でしょうか、与えられた数値のグループからそれらを代表とする1つの値を求めるような局面では条件反射的に「平均」を使ってしまいがちです。

最初に上げた金融資産の例でも、世間の関心は中央値の方の意味であることが分かっていながらとりあえず平均値も提示していたりしますし、仮に中央値だけ示されていたとしたら「じゃあ、平均値は?」という疑問を意味もなく持ったりするのではないかと思います。

実際に「平均値」が意味を持つケースも多いとは思いますが、安易な使用は避けるよう心掛けたいと思います。

Related articles

ローカルSMTPメールサーバ(Mailpit)をE...

ローカル環境でのメール送受信テストにつ...

EC-CUBE 4系のプラグイン開発について その...

今回は、ちょっとハマったプラグインのイ...

EC-CUBE 4系のプラグイン開発について その...

前回のブログの最後でちょっと書いたので...

EC-CUBE 4系のプラグイン開発について その...

前回、プラグインを一旦有効化させて管理...