今回は【尾獣の強さを考える5】と同じように
少しだけ(というかだいぶ…?)統計数学っぽい話になります。
数式が苦手な方には大変申し訳ない内容となりますが、
結果のみ参照していただければ幸いです。ご了承ください。
今回は最小二乗法と呼ばれるものの導入です。

1.最小二乗法

ナルトの成長の度合いとしてナルトの『強さ』を考えます。
ナルトはその強さが1話のときよりも当然後の話数になるほど『強くなる』わけですが、
このナルトの成長を直線的に話数と相関しているモデルとしてとらえたいと思います。

つまりナルトの強さを表すyと話数xとの関係が、
ある関数y=f(x)としてとらえられるものとします。
しかし、ある話数 x=x_i におけるナルトの強さ y=y_i すなわち (x_i,y_i) が
(x_1,y_1),\cdots,(x_n,y_n)の点と単純な関数関係で表せないとき、
それらの点を近似的にある関数で説明することにします。
このとき、近似的に得る関数y=g(x)と各々の点からの距離の誤差が最小になるように、
y=g(x)を考える方法を最小二乗法といいます。


今、直線的なモデルを考えようとしているので、
y=g(x)y=a+bxのように表されるはずです。
そこで、全部でn話あるときのxの平均\bar{x}を用いて


y=a+bx=\alpha+\beta(x-\bar{x})

のように考えることにします。すると、
L(\alpha,\beta)=\sum_{i=1}^n (y_i-\alpha-\beta(x_i-\bar{x}))^2
(1,1)
が各々の点と直線との差の二乗を表していて、
このLを最小にする\alpha,\betaを考えます。
したがって、それぞれを偏微分して、

\frac{\part L}{\part \alpha}=-2 \sum_{i=1}^n(y_i-\alpha-\beta(x_i-\bar{x}))=0
(1,2)

\frac{\part L}{\part \beta}=-2 \sum_{i=1}^n(x_i-\bar{x})(y_i-\alpha-\beta(x_i-\bar{x}))=0
(1,3)
となる\alphaかつ\betaLを最小にするので、
この\alpha,\betaを新たに\hat{\alpha},\hat{\beta}とおけば、

\hat{\alpha}=\bar{y}

\hat{\beta}=\frac{\sum_{i=1}^nx_iy_i-n\bar{x}\bar{y}}{\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{s_{xy}}{s^2_x}
(1,4)
となります。

(∵)
式 (1,2) から
\sum_{i=1}^n y_i=n\alpha + \beta\sum_{i=1}^n(x_i-\bar{x})
n\bar{y}=n\alpha+\beta(n\bar{x}-n\bar{x})
\hat{\alpha}=\bar{y}
\betaについても同様。


ここで、s^2_x,s_{xy}分散を表しています。


s^2_x=\frac{\,1\,}{\large n}\sum_{i=1}^n(x_i-\bar{x})^2

s_{xy}=\frac{\,1\,}{\large n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})

したがって、

\hat{y}=\bar{y}+\frac{s_{xy}}{s^2_x}(\hat{x}-\bar{x})
(1,5)
を得ます。

2.話数との相関、技の取得数

最小二乗法によって、話数と強さの直線的な相関関係を表す式 (1,5) を得ました。
次に具体的にこの式を応用していきたいと思います。
1話〜400話までを考えた場合、
x_i は1〜400の値をとりますが、重要なことに気づきます。
強さを表す具体的数値、すなわちy_iの値がないのです。
逆にいえば、話数とナルトの成長を相関していると考えているので、
ナルトの成長を表す“強さ”とは様々なパラメータになりえるといえます。
そこで、パラメータを限定して、ある具体的なものに還元してやることで、
何らかのデータを得ることができるでしょう。
ここでは、その強さのパラメータを“Aランク以上の新技の取得数”に還元してやることにします。
これまでのナルトのAランク以上の新技取得の段階に関しては以下の通りです。
それらの術の完成形が初回登場時の話数をカウントしています。

階級i 術名 話数x 段階y
多重影分身の術 1話
ハーレムの術 2話
口寄せの術・ガマブン太 95話
うずまきナルト二千連弾 134話
螺旋丸 167話
大玉螺旋丸 260話
風遁・螺旋丸 337話
風遁・螺旋手裏剣 339話

このとき、
\bar{x}=\frac{1335}{8}
\bar{y}=\frac{36}{8}=\frac{9}{2}
S_{xy}=\sum_{i=1}^8\frac{x_iy_i}{8}-\bar{x}\bar{y}=\frac{8292\cdot8-1335\cdot36}{64}=285.5625
S^2_x=\sum_{i=1}^8 \frac{(x_i)^2}{8}-(\bar{x})^2=\frac{405841}{8}-\frac{1782225}{64}=21547.8594
したがって、有効数字を5桁とすれば、


\hat{\alpha}=4.5000
(2,1)

\hat{\beta}=0.01325
(2,2)
求めるモデルは、

y=4.5000+0.01325(x-166.875)=0.01325x+2.2889
(2,3)
また相関係数

r_{xy}=\frac{s_{xy}}{s_xs_y}
(2,4)
が1に近いほど (2.3) 式のデータは良いといえます。このデータでは
s^2_y=5.25
より、相関係数はおよそ0.85あたりで、信頼性はほどほどにあるといえます。
ナルトが次の大技を覚えることすなわち9段階目に入るのは、y=9ですから、
(2.3) 式より、おおよそx=506.498を得ます。
つまりナルトが次の大技を覚えるのは506話ぐらいということになります。

3.結果

  • ナルトが次の大技を覚えるのは506話ぐらい。