ねこらぼノート

Practice and Theory of Thinking for Business, Science and Life

1変数データ(量的データの定量的把握)

位置による分類、広がりによる分類、非対称性による分類、尖りによる分類を定量的に把握するための指標を説明する。

目次

はじめに

量的データの定性的把握について前回書いた。今回は量的データの定量的把握について書く。

note.nekolabs.net

位置の指標

位置の指標として、平均値、中央値、分位点、最頻値(モード)、ミッドレンジを説明する。

平均値(Mean)

ある変数 $x$ について考える。データは $n$ 個あり、個々の値を $x_i$ と表す。平均値 $\bar{x}$ は次のように定義される。

$$ \begin{equation} \bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n} \end{equation} $$

中央値(Median)

ある変数 $x$ の値を小さい順(大きい順)に並べ、 $(n+1)/2$ 個目にある数値 $x_{(n+1)/2}$ を中央値とする。 $n$ が偶数の場合は真ん中に2つの数値があるため、 $(x_{n/2} + x_{n/2 + 1})/2$ を中央値とする。まとめると、中央値 $x_{median}$ は

$$ \begin{equation} x_{median} = \begin{cases} x_{(n+1)/2} & (nが奇数) \\ (x_{n/2} + x_{n/2 + 1})/2 & (nが偶数) \end{cases} \end{equation} $$

分位点(Percentile)

ある変数 $x$ の値を小さい順に並べ、 0個目を0%、n個目を100%とした時にp%にある値をp%分位点と呼ぶ。よく使われる分位点には四分位点(quartile)という別名がある。対応関係を次に示す。

四分位点 分位点
第1四分位点 25%分位点: $Q_1$
第2四分位点 50%分位点(中央値): $Q_2$
第3四分位点 75%分位点: $Q_3$

最頻値(Mode)

度数分布表で最も度数の多い値を最頻値と呼ぶ。最頻値は階級幅の取り方によって値が変化する。

ミッドレンジ(Mid-Range)

$$ \begin{equation} x_{mid-range} = \frac{1}{2} \{ max(x_1 , x_2 , \dots , x_n) - min(x_1 , x_2 , \dots , x_n) \} \end{equation} $$

広がり(散らばり、ばらつき)の指標

広がりの指標として、範囲、四分位範囲、分散、標準偏差、カイ二乗値、変動係数、標準得点を説明する。

範囲(Range)

$$ \begin{equation} R = max(x_1 , x_2 , \dots , x_n) - min(x_1 , x_2 , \dots , x_n) \end{equation} $$

四分位範囲(InterQuartile Range)

$$ \begin{equation} IQR = Q_3 - Q_1 \end{equation} $$

四分位偏差(Quartile Deviation)は

$$ \begin{eqnarray} Q & = & \frac{1}{2} (Q_3 - Q_1) \\ & = & \frac{1}{2} IQR \end{eqnarray} $$

分散(Variance)

$$ \begin{equation} S^2 = \frac{1}{n} \{ ( x_{1} - \bar{x} )^{2} + (x_{2} - \bar{x} )^{2} + \dots + ( x_{n} - \bar{x} )^{2} \} \end{equation} $$

標準偏差(Standard Deviation)

$$ \begin{eqnarray} S & = & \sqrt{ S^{2} } \\ & = & \frac{1}{ \sqrt{n} } \sqrt{ ( x_{1} - \bar{x} )^{2} + (x_{2} - \bar{x} )^{2} + \dots + ( x_{n} - \bar{x} )^{2} } \end{eqnarray} $$

変動係数(Coefficient Of Variation)

$$ \begin{equation} C.V. = \frac{S}{ \bar{x} } \end{equation} $$

標準得点(Standard Score)

$$ \begin{equation} z_{i} = \frac{ x_{i} - \bar{x} }{ S } \end{equation} $$

非対称性の指標

非対称性の指標として、歪度を説明する。

歪度(Skewness)

$$ \begin{equation} skewness = \frac{1}{n} \frac{ ( x_{1} - \bar{x} )^{3} + (x_{2} - \bar{x} )^{3} + \dots + ( x_{n} - \bar{x} )^{3} }{ S^{3} } \end{equation} $$

$skewness$ が正の方向に行けば行くほど右に歪んでいる。 $skewness$ が負の方向に行けば行くほど左に歪んでいる。

尖りの指標

尖りの指標として、尖度を説明する。

尖度(Kurtosis)

$$ \begin{equation} kurtosis = \frac{1}{n} \frac{ ( x_{1} - \bar{x} )^{4} + (x_{2} - \bar{x} )^{4} + \dots + ( x_{n} - \bar{x} )^{4} }{ S^{4} } - 3 \end{equation} $$

タイタニック号の年齢で実際に算出

見方 指標
位置 平均 29.6991
位置 中央値 28.0
位置 第1四分位点 20.125
位置 第3四分位点 38.0
位置 最頻値 24.0
位置 ミッドレンジ 39.79
広がり 範囲 79.58
広がり 四分位範囲 17.875
広がり 四分位偏差 8.9375
広がり 分散 211.019
広がり 標準偏差 14.5265
広がり 変動係数 0.489
非対称性 歪度 0.389
尖り 尖度 0.178

まとめ

位置による分類、広がりによる分類、非対称性による分類、尖りによる分類を定量的に把握するための指標を説明した。いや、あまり説明していないので、そのうち、書き直すかもしれません。

参考文献

  1. 統計学入門, 東京大学出版会

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

付録

GitHub - タイタニック号の年齢で実際に算出

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)