位置による分類、広がりによる分類、非対称性による分類、尖りによる分類を定量的に把握するための指標を説明する。
目次
はじめに
量的データの定性的把握について前回書いた。今回は量的データの定量的把握について書く。
位置の指標
位置の指標として、平均値、中央値、分位点、最頻値(モード)、ミッドレンジを説明する。
平均値(Mean)
ある変数 $x$ について考える。データは $n$ 個あり、個々の値を $x_i$ と表す。平均値 $\bar{x}$ は次のように定義される。
$$ \begin{equation} \bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n} \end{equation} $$
中央値(Median)
ある変数 $x$ の値を小さい順(大きい順)に並べ、 $(n+1)/2$ 個目にある数値 $x_{(n+1)/2}$ を中央値とする。 $n$ が偶数の場合は真ん中に2つの数値があるため、 $(x_{n/2} + x_{n/2 + 1})/2$ を中央値とする。まとめると、中央値 $x_{median}$ は
$$ \begin{equation} x_{median} = \begin{cases} x_{(n+1)/2} & (nが奇数) \\ (x_{n/2} + x_{n/2 + 1})/2 & (nが偶数) \end{cases} \end{equation} $$
分位点(Percentile)
ある変数 $x$ の値を小さい順に並べ、 0個目を0%、n個目を100%とした時にp%にある値をp%分位点と呼ぶ。よく使われる分位点には四分位点(quartile)という別名がある。対応関係を次に示す。
四分位点 | 分位点 |
---|---|
第1四分位点 | 25%分位点: $Q_1$ |
第2四分位点 | 50%分位点(中央値): $Q_2$ |
第3四分位点 | 75%分位点: $Q_3$ |
最頻値(Mode)
度数分布表で最も度数の多い値を最頻値と呼ぶ。最頻値は階級幅の取り方によって値が変化する。
ミッドレンジ(Mid-Range)
$$ \begin{equation} x_{mid-range} = \frac{1}{2} \{ max(x_1 , x_2 , \dots , x_n) - min(x_1 , x_2 , \dots , x_n) \} \end{equation} $$
広がり(散らばり、ばらつき)の指標
広がりの指標として、範囲、四分位範囲、分散、標準偏差、カイ二乗値、変動係数、標準得点を説明する。
範囲(Range)
$$ \begin{equation} R = max(x_1 , x_2 , \dots , x_n) - min(x_1 , x_2 , \dots , x_n) \end{equation} $$
四分位範囲(InterQuartile Range)
$$ \begin{equation} IQR = Q_3 - Q_1 \end{equation} $$
四分位偏差(Quartile Deviation)は
$$ \begin{eqnarray} Q & = & \frac{1}{2} (Q_3 - Q_1) \\ & = & \frac{1}{2} IQR \end{eqnarray} $$
分散(Variance)
$$ \begin{equation} S^2 = \frac{1}{n} \{ ( x_{1} - \bar{x} )^{2} + (x_{2} - \bar{x} )^{2} + \dots + ( x_{n} - \bar{x} )^{2} \} \end{equation} $$
標準偏差(Standard Deviation)
$$ \begin{eqnarray} S & = & \sqrt{ S^{2} } \\ & = & \frac{1}{ \sqrt{n} } \sqrt{ ( x_{1} - \bar{x} )^{2} + (x_{2} - \bar{x} )^{2} + \dots + ( x_{n} - \bar{x} )^{2} } \end{eqnarray} $$
変動係数(Coefficient Of Variation)
$$ \begin{equation} C.V. = \frac{S}{ \bar{x} } \end{equation} $$
標準得点(Standard Score)
$$ \begin{equation} z_{i} = \frac{ x_{i} - \bar{x} }{ S } \end{equation} $$
非対称性の指標
非対称性の指標として、歪度を説明する。
歪度(Skewness)
$$ \begin{equation} skewness = \frac{1}{n} \frac{ ( x_{1} - \bar{x} )^{3} + (x_{2} - \bar{x} )^{3} + \dots + ( x_{n} - \bar{x} )^{3} }{ S^{3} } \end{equation} $$
$skewness$ が正の方向に行けば行くほど右に歪んでいる。 $skewness$ が負の方向に行けば行くほど左に歪んでいる。
尖りの指標
尖りの指標として、尖度を説明する。
尖度(Kurtosis)
$$ \begin{equation} kurtosis = \frac{1}{n} \frac{ ( x_{1} - \bar{x} )^{4} + (x_{2} - \bar{x} )^{4} + \dots + ( x_{n} - \bar{x} )^{4} }{ S^{4} } - 3 \end{equation} $$
タイタニック号の年齢で実際に算出
見方 | 指標 | 値 |
---|---|---|
位置 | 平均 | 29.6991 |
位置 | 中央値 | 28.0 |
位置 | 第1四分位点 | 20.125 |
位置 | 第3四分位点 | 38.0 |
位置 | 最頻値 | 24.0 |
位置 | ミッドレンジ | 39.79 |
広がり | 範囲 | 79.58 |
広がり | 四分位範囲 | 17.875 |
広がり | 四分位偏差 | 8.9375 |
広がり | 分散 | 211.019 |
広がり | 標準偏差 | 14.5265 |
広がり | 変動係数 | 0.489 |
非対称性 | 歪度 | 0.389 |
尖り | 尖度 | 0.178 |
まとめ
位置による分類、広がりによる分類、非対称性による分類、尖りによる分類を定量的に把握するための指標を説明した。いや、あまり説明していないので、そのうち、書き直すかもしれません。