ねこらぼノート

Practice and Theory of Thinking for Business, Science and Life

1変数データ(量的データの定性的把握)

1変数データの分析は多次元データにおいても最初に行う内容となる。今回は、量的データに利用できる数を数える度数分布表、それを可視化したヒストグラム、ヒストグラムの見方(分布の形状)について説明する。

目次

度数分布表

量的データの1次元データを取り扱う。今回はkaggleのタイタニック号生死データの年齢を取り上げる1。kaggleのタイタニック号の生死データの先頭5行を示す。

PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S
1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th… female 38.0 1 0 PC 17599 71.2833 C85 C
2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S
3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S
4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S

年齢を5歳刻みの幅をもたせて数を数えることをする。

階級 階級値 度数 相対度数 累積度数 累積相対度数
[0, 5) 2.5 40 0.056 40 0.056
[5, 10) 7.5 22 0.031 62 0.087
[10, 15) 12.5 16 0.022 78 0.109
[15, 20) 17.5 86 0.120 164 0.230
[20, 25) 22.5 114 0.160 278 0.389
[25, 30) 27.5 106 0.148 384 0.538
[30, 35) 32.5 95 0.133 479 0.671
[35, 40) 37.5 72 0.101 551 0.772
[40, 45) 42.5 48 0.067 599 0.839
[45, 50) 47.5 41 0.057 640 0.896
[50, 55) 52.5 32 0.045 672 0.941
[55, 60) 57.5 16 0.022 688 0.964
[60, 65) 62.5 15 0.021 703 0.985
[65, 70) 67.5 4 0.006 707 0.990
[70, 75) 72.5 6 0.008 713 0.999
[75, 80) 77.5 0 0.000 713 0.999
[80, 85) 82.5 1 0.001 714 1.000
[85, 90) 87.5 0 0.000 714 1.000
合計 714 1

この表のことを度数分布表という。

年齢を区切った幅のことを階級と言う。階級値とは階級を代表する値である。各階級の上限値と下限値の中間値を階級値とすることが多い。

階級数、階級幅の決め方

階級数、階級幅は分布の形状がわかること、人間が理解しやすい幅であることを満たしている必要がある。決まったルールはない。

スタージェスの文献(参考文献3)を参考にすると、階級数$k$は$ k = 1 + \log_{2}{n}$である。階級幅$c$は等間隔とすると、$c = R / k$である。$R$はRangeを意味し、$R = max - min$である。

n=714である。 スタージェスの方法に基づくと、k=10.48となり階級数は11となる。 ルートの方法に基づくと、$\sqrt{n}$=26.72となり階級数は27となる。

ヒストグラム

階級幅が一定の場合、度数分布表を棒グラフにすれば、概ねヒストグラムとなる。ただし、棒と棒の間はゼロ距離にする。

階級幅が異なる場合は度数に比例する面積とすることが一般的なようだ。日本工業規格JIS Z 8101-1:1999では

測定値の存在する範囲をいくつかの区間に分けた場合,各区間を底辺とし,その区間に属する測定値の度数に比例する面積を持つ長方形を並べた図。

と定義されている。

現実には、階級幅を一定にする方が度数に比例する面積とすることを考えなくて良いのでオススメである。

先で述べた度数分布表を元にヒストグラムを作ると、次のようになる。

ヒストグラムの見方(分布の形状)

凸凹による分類

分布の種類には、凸凹で見ると、山型、U字型、右肩上がり、一様などいろいろある。

図を書くと次のようになる。

以降は山型の分布を前提として分類を行う。

山の数による分類

山型の分布における山の数がある。山の数によって名前が付いている。1個が単峰、2個が双峰、3個以上が多峰と呼ぶ。まとめると、次の表になる。

分類 山の数
単峰 山が1個
双方 山が2個
多峰 山が3個以上

図で描くと、次のようになる。

以降の分布の指標(位置、広がり、非対称性、尖りの分類)は、概ね単峰の分布であることを前提としている。

双峰、多峰である場合は性質の異なるグループが混ざっていることが多い。性質の異なるグループごとに分けることで単峰の分布にして分析するのがよい。

たとえば、性別関係なく身長をヒストグラムにすると双峰になるが、男性・女性それぞれヒストグラムを作れば単峰になるだろう。そのグループに分けることを層別化という。

位置(中心傾向)による分類

分類 値の大きさ
小さな値の分布 値が小さい
大きな値の分布 値が大きい

図で描くと、次のようになる。

広がり(散らばり、ばらつき)による分類

分類 広がり(散らばり、ばらつき)
広がりの小さい分布 小さい
広がりの大きい分布 大きい

図で描くと、次のようになる。

非対称性による分類

分類 歪み(偏り)
対称な分布 左右対称(歪みなし)
右に歪んだ分布 右に歪んでいる
左に歪んだ分布 左に歪んでいる

図で描くと、次のようになる。

中心の尖りによる分類

分類 尖り
平らな分布 尖っていない
尖ってる分布 尖っている

図で描くと、次のようになる。

ヒストグラムの見方(分布の形状)のまとめ

ヒストグラムの見方として、凸凹による分類、山の数による分類、位置による分類、広がりによる分類、非対称性による分類、尖りによる分類を説明した。まとめると次の表になる。

分布の形状(特性) 分類
凸凹による分類 山型、U字型、右肩上がり、一様、etc.
山の数 単峰、双峰、多峰
位置(中心傾向)による分類 値が小さい、値が大きい
広がり(ばらつき)による分類 広がりが小さい、広がりが大きい
非対称性による分類 左右対称、右に歪んでいる、左に歪んでいる
中心の尖りによる分類 尖っていない、尖っている

まとめ

今回は量的データの1次元データの分析方法として、度数分布表とヒストグラムを説明した。また、ヒストグラムの見方(分布の形状)を説明した。ヒストグラムの見方(分布の形状)は定性的な説明であったが、次は分布の形状を定量的に把握するためにそれぞれ指標(数値)で表すことについて説明する。

参考文献

  1. 統計学入門, 東京大学出版会
  2. 鳥居 泰彦, はじめての統計学, 日本経済新聞社
  3. Herbert A. Sturges, The Choice of a Class Interval, ournal of the American Statistical Association Vol. 21, No. 153 (Mar., 1926), pp. 65-66
  4. https://www.kaggle.com/c/titanic

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

はじめての統計学

はじめての統計学

付録

GitHub - kaggleのタイタニック号生死データの年齢の度数分布表とヒストグラム

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

はじめての統計学

はじめての統計学


  1. kaggleのタイタニック号の生死データについては、kaggleサイトにて入手ください。