ねこらぼノート

Practice and Theory of Thinking for Business, Science and Life

2変数データ(量的データの定量的把握)

2変数データ(量的データ)の定量的把握について説明する。

目次

関係の向きと強さの指標

関係があり、1つの関係であり、直線関係であることを前提として、量的データの定量的な指標として、共分散と相関係数(ピアソンの積率相関係数)がある。

共分散

2変数の場合の向きを考える。2変数をそれぞれxとyとする。xの平均を $\bar{x}$ 、yの平均を $\bar{y}$ とする。向きを正と負で表したい。次の図ような場合に、それぞれ正と負になれば良い。

ある1組の場合、 $ ( x_{i} - \bar{x} )( y_{i} - \bar{y} ) $ を考えれば良い。全体の傾向としては、$ i={1, 2, \dots , n} $のすべての組の期待値となる。これを共分散 $COV(X, Y) $ と呼ぶ。

$$ \begin{eqnarray} COV(X, Y) & = & E { (X - \bar{x})(Y - \bar{y}) } \\ & = & \frac{1}{n} \{ ( x_{1} - \bar{x} ) (y_{1} - \bar{y}) + (x_{2} - \bar{x} )(y_{2} - \bar{y}) + \dots + ( x_{n} - \bar{x} )( y_{n} - \bar{y}) \} \end{eqnarray} $$

共分散でも、向きの指標になる。ただし、強さの指標としては使えない。

仮に強さの指標として共分散の絶対値$|COV(X, Y)|$を使おうとする。XとYの単位によって共分散は異なる。たとえば、Xの単位が円と万円で共分散の絶対値は異なる。関係の強さの指標として、共分散は不適である。

相関係数(ピアソンの積率相関係数)

そこで、データを標準化することを考える。平均0、分散1に変換する。 以前、標準得点として記述した変換を行う。

$$ \begin{equation} Z_{xi} = \frac{x_{i} - \bar{x}}{S_{x}} \\ Z_{yi} = \frac{y_{i} - \bar{y}}{S_{y}} \end{equation} $$

標準得点(標準化)の関連記事

note.nekolabs.net

標準化を施した上で、期待値を取ったものが相関係数となる。

$$ \begin{eqnarray} r & = & E( Z_{x} Z_{y} ) \\ & = & \frac{ COV(X, Y) }{ S_{x} S_{y} } \end{eqnarray} $$

共分散もう一度

共分散は、データを平均0に変換、分散は変換せず、XYの期待値を取ったということとも言える。

まとめ

2変数データ(量的データ)の定量的把握について説明した。相関係数の前提は、関係があり、1つの関係であり、直線関係であることである。それ以外の場合は、有効な指標とは言えない。

本の紹介

蓑谷千凰彦先生のこれからはじめる統計学統計学入門はおもしろい。ただし、どちらもこれからはじめるとか入門とかのイメージよりはレベルが高い。

参考文献

  1. 統計学入門, 東京大学教養学部統計学教室 編, 東京大学出版会
  2. 統計学入門, 蓑谷千凰彦, 東京図書
  3. これからはじめる統計学, 蓑谷千凰彦, 東京図書

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

統計学入門

統計学入門

これからはじめる統計学

これからはじめる統計学